波多野结衣中文字幕一区二区三区,亚洲av无码专区国产乱码电影,亚洲国产精品久久亚洲精品,欧美激情精品久久久久久

胡延平：為什么DeepSeek-V3的火爆不宜過高評價(jià)？

您現(xiàn)在的位置：首頁科技前沿胡延平：為什么DeepSeek-V3的火爆不宜過高評價(jià)？

胡延平：為什么DeepSeek-V3的火爆不宜過高評價(jià)？

黃文 2025-01-02 科技前沿 7 次瀏覽 0個(gè)評論

　　炒股就看金麒麟分析師研報(bào)，權(quán)威，專業(yè)，及時(shí)，全面，助您挖掘潛力主題機(jī)會！

　　【睿見】胡延平：為什么DeepSeek-V3的火爆不宜過高評價(jià)？

　　來源：盤古智庫

　　周末實(shí)測下來基本可以，數(shù)學(xué)正確率較高，代碼是強(qiáng)項(xiàng)，考驗(yàn)?zāi)Ｐ偷囊恍┙?jīng)典問題，回答正確與錯(cuò)誤參半，還沒遇到其他用戶反饋的不穩(wěn)定、思路循環(huán)紊亂問題。

　　本文系盤古智庫學(xué)術(shù)委員、DCCI-未來智庫與FutureLabs-未來實(shí)驗(yàn)室首席專家，信息社會50人論壇成員胡延平接受采訪內(nèi)容。文章來源于“胡延平EarthRambler”微博。

　　本文大約3000字，讀完約7分鐘。

　　周末實(shí)測下來基本可以，數(shù)學(xué)正確率較高，代碼是強(qiáng)項(xiàng)，考驗(yàn)?zāi)Ｐ偷囊恍┙?jīng)典問題，回答正確與錯(cuò)誤參半，還沒遇到其他用戶反饋的不穩(wěn)定、思路循環(huán)紊亂問題。也隨手生成兩個(gè)對其來說小兒科的python小游戲。但為什么說甚至已經(jīng)被某些博主又上升到厲害了我的國的這款模型，不宜過高評價(jià)？7點(diǎn)探討：

　　1．效率方法淋漓盡致，沒有底層原理創(chuàng)新。合成數(shù)據(jù)、知識蒸餾、FP8低精度、稀疏模型、MoE甚至包括多頭注意力機(jī)制都是已有已知技術(shù)，但其清晰把握所有“已知”并且最大程度壓縮算力邊界，并且非常精巧地把不同已知原理組合起來，在資源和性能之間調(diào)優(yōu)，取得最佳平衡，這是DeepSeek-V3的成功之處。實(shí)質(zhì)上又一次呈現(xiàn)了“非常中國”的“工程”能力。

　　2．大模型現(xiàn)在是兩條曲線交織的雙螺旋進(jìn)化。向上走的曲線，追求整理感知理解行為能力的通用智能，拼整體理解意義上的腦能力，思考和監(jiān)督思考，視覺在內(nèi)的整體理解，空間智能等現(xiàn)實(shí)模型，物理等科學(xué)模型，多模態(tài)更不在話下。思維鏈、皮層計(jì)算、不同模型原理探索是當(dāng)下前沿探索的核心。向下走的曲線，提升數(shù)據(jù)質(zhì)量，訓(xùn)練意義上的量效比，算力能效比，大幅降低推理成本。DeepSeek在這個(gè)雙螺旋里向下有余向上不足。

　　3.LLM是基礎(chǔ)，但要從LLM里走出來。非LLM實(shí)質(zhì)上也需要結(jié)合LLM的能力才能與人交互，但LLM是大模型的古典時(shí)代，就像token只是所有表征里的其中一種表征（但說Token已死也是故做驚人之語，LCM復(fù)雜連續(xù)的概念向量的確是對Token的高維消解但重新定義的token以及轉(zhuǎn)向patch的非token仍有“元”價(jià)值，不過說Token已死至少看到了趨勢，還是比國內(nèi)某企業(yè)前不久把“預(yù)測下一個(gè)Token”這種老掉牙的思維拿出來當(dāng)傳播主題強(qiáng)），Transformer是基礎(chǔ)架構(gòu)但不是架構(gòu)的全部，更不是終極形態(tài)。在第2第3點(diǎn)所述角度，DeepSeek沒有展現(xiàn)分毫對未來的思考和探索。實(shí)質(zhì)上依然處在追趕階段。DeepSeek不僅處于古典LLM范疇，呈現(xiàn)的其實(shí)再一次以及又一次是“我們一直最擅長的”性價(jià)比。

　　4．從訓(xùn)練到推理，量大管夠、豐儉由人但限量消費(fèi)，是其產(chǎn)品邏輯，也是DeepSeek-V3呈現(xiàn)較高費(fèi)效比的關(guān)鍵（局部不穩(wěn)定因此也是必然）。14.8T高質(zhì)量token打底，基本水準(zhǔn)差不了，671B的MoE把參數(shù)拉到頂，實(shí)際使用過程中每token靈活調(diào)用256個(gè)專家里的8個(gè)左右專家模型，37B的激活參數(shù)相當(dāng)節(jié)約推理算力資源。價(jià)格又打得很低，但多模態(tài)等通通沒有，妥妥的大戶型經(jīng)濟(jì)適用房即視感。團(tuán)隊(duì)核心人員稱“我們確實(shí)押注了三個(gè)方向。一是數(shù)學(xué)和代碼，二是多模態(tài)，三是自然語言本身”。從這一點(diǎn)看，接下來一段時(shí)間其基本盤還是在古典LLM范疇。

　　5．一直在品DeepSeek-V3像什么味道，忽然想到，竟然像極了小米SU7讓車評人陳震撇嘴以至于被米粉攻陷評論區(qū)的那些原因：神似某捷的外型、單層的玻璃、民用級剎車卡鉗、大概其的隔音．．．．．．雖然一上賽道跑幾圈剎車就嚴(yán)重衰減，雖然里里外外都是蔚小理玩過的東西，沒有技術(shù)和形態(tài)突破，但這東西它就是短平快造出來了總體性價(jià)比還可以而且很有流量而且竟然有原廠手機(jī)支架這你受得了嗎？

　　6.DeepSeek-V3能不能持續(xù)有流量不太好說，幻方也沒有小米的生態(tài)和流量能力，這領(lǐng)域格局變得快，一夜顛覆的情況太多了。不過據(jù)說更扎實(shí)的新版本在路上了，幾個(gè)月后亮相，相當(dāng)于SU7的Ultra版。V3只是訓(xùn)練出來覺得還可以，就和盤托出來了。希望那個(gè)時(shí)候，能稱得上是全面創(chuàng)新，目前真不是。

　　7．由此顛覆了模型與算力關(guān)系更說不上。接下來大家會越來越清楚地看到，這個(gè)領(lǐng)域有捷徑但沒有彎道超車，有后發(fā)成本優(yōu)勢但沒有后發(fā)領(lǐng)先優(yōu)勢，AGI路線更是只能取巧沒有投機(jī)。比如即使L3+級別的智能駕駛，端到端向VLA進(jìn)化，車輛SoC算力1000TOPS起才勉強(qiáng)可玩，2000-3000TOPS會稀松平常，即使如此，短期內(nèi)也未必能夠到真正的L4。向上曲線的模型思考長度速度整體度、多模態(tài)、感知思考與行為能力合一等方向，只可能將算力需求拉升到新高度。向下曲線對成本效率有改變，但對捧得AGI圣杯的貢獻(xiàn)可以忽略?！?/p>

你可能想看：

玻璃窯爐為什么要正壓,玻璃窯爐窯壓過高有什么影響

摩氧祛斑多少年的產(chǎn)品,摩氧祛斑真實(shí)評價(jià)

喝水為什么會產(chǎn)生熱能？，喝水產(chǎn)生熱能的原因，人體水分蒸發(fā)時(shí)會釋放熱量。

為什么不用環(huán)保灶,環(huán)保灶好嗎

為什么越來越多人喜歡紅利？

陶喆回應(yīng)葉珂歌曲評價(jià)爭議，澄清事實(shí)，維護(hù)音樂尊嚴(yán)

鍋爐給水為什么要加氨？，鍋爐給水如何添加氨處理雜質(zhì)和腐蝕

為什么脫硫脫硝,脫硫為什么要排廢水

轉(zhuǎn)載請注明來自浮筒閥_自控截污裝置_樓宇雨污分流器，本文標(biāo)題：《胡延平：為什么DeepSeek-V3的火爆不宜過高評價(jià)？》

黃文 44篇文章站點(diǎn) 微博

每一天，每一秒，你所做的決定都會改變你的人生！

發(fā)表評論取消回復(fù)

評論列表（暫無評論，7人圍觀）參與討論

還沒有評論，來說兩句吧...

Top