炒股就看金麒麟分析師研報(bào),權(quán)威,專業(yè),及時(shí),全面,助您挖掘潛力主題機(jī)會!
【睿見】胡延平:為什么DeepSeek-V3的火爆不宜過高評價(jià)?
來源:盤古智庫
周末實(shí)測下來基本可以,數(shù)學(xué)正確率較高,代碼是強(qiáng)項(xiàng),考驗(yàn)?zāi)P偷囊恍┙?jīng)典問題,回答正確與錯(cuò)誤參半,還沒遇到其他用戶反饋的不穩(wěn)定、思路循環(huán)紊亂問題。
本文系盤古智庫學(xué)術(shù)委員、DCCI-未來智庫與FutureLabs-未來實(shí)驗(yàn)室首席專家,信息社會50人論壇成員胡延平接受采訪內(nèi)容。文章來源于“胡延平EarthRambler”微博。
本文大約3000字,讀完約7分鐘。
周末實(shí)測下來基本可以,數(shù)學(xué)正確率較高,代碼是強(qiáng)項(xiàng),考驗(yàn)?zāi)P偷囊恍┙?jīng)典問題,回答正確與錯(cuò)誤參半,還沒遇到其他用戶反饋的不穩(wěn)定、思路循環(huán)紊亂問題。也隨手生成兩個(gè)對其來說小兒科的python小游戲。但為什么說甚至已經(jīng)被某些博主又上升到厲害了我的國的這款模型,不宜過高評價(jià)?7點(diǎn)探討:
1.效率方法淋漓盡致,沒有底層原理創(chuàng)新。合成數(shù)據(jù)、知識蒸餾、FP8低精度、稀疏模型、MoE甚至包括多頭注意力機(jī)制都是已有已知技術(shù),但其清晰把握所有“已知”并且最大程度壓縮算力邊界,并且非常精巧地把不同已知原理組合起來,在資源和性能之間調(diào)優(yōu),取得最佳平衡,這是DeepSeek-V3的成功之處。實(shí)質(zhì)上又一次呈現(xiàn)了“非常中國”的“工程”能力。
2.大模型現(xiàn)在是兩條曲線交織的雙螺旋進(jìn)化。向上走的曲線,追求整理感知理解行為能力的通用智能,拼整體理解意義上的腦能力,思考和監(jiān)督思考,視覺在內(nèi)的整體理解,空間智能等現(xiàn)實(shí)模型,物理等科學(xué)模型,多模態(tài)更不在話下。思維鏈、皮層計(jì)算、不同模型原理探索是當(dāng)下前沿探索的核心。向下走的曲線,提升數(shù)據(jù)質(zhì)量,訓(xùn)練意義上的量效比,算力能效比,大幅降低推理成本。DeepSeek在這個(gè)雙螺旋里向下有余向上不足。
3.LLM是基礎(chǔ),但要從LLM里走出來。非LLM實(shí)質(zhì)上也需要結(jié)合LLM的能力才能與人交互,但LLM是大模型的古典時(shí)代,就像token只是所有表征里的其中一種表征(但說Token已死也是故做驚人之語,LCM復(fù)雜連續(xù)的概念向量的確是對Token的高維消解但重新定義的token以及轉(zhuǎn)向patch的非token仍有“元”價(jià)值,不過說Token已死至少看到了趨勢,還是比國內(nèi)某企業(yè)前不久把“預(yù)測下一個(gè)Token”這種老掉牙的思維拿出來當(dāng)傳播主題強(qiáng)),Transformer是基礎(chǔ)架構(gòu)但不是架構(gòu)的全部,更不是終極形態(tài)。在第2第3點(diǎn)所述角度,DeepSeek沒有展現(xiàn)分毫對未來的思考和探索。實(shí)質(zhì)上依然處在追趕階段。DeepSeek不僅處于古典LLM范疇,呈現(xiàn)的其實(shí)再一次以及又一次是“我們一直最擅長的”性價(jià)比。
4.從訓(xùn)練到推理,量大管夠、豐儉由人但限量消費(fèi),是其產(chǎn)品邏輯,也是DeepSeek-V3呈現(xiàn)較高費(fèi)效比的關(guān)鍵(局部不穩(wěn)定因此也是必然)。14.8T高質(zhì)量token打底,基本水準(zhǔn)差不了,671B的MoE把參數(shù)拉到頂,實(shí)際使用過程中每token靈活調(diào)用256個(gè)專家里的8個(gè)左右專家模型,37B的激活參數(shù)相當(dāng)節(jié)約推理算力資源。價(jià)格又打得很低,但多模態(tài)等通通沒有,妥妥的大戶型經(jīng)濟(jì)適用房即視感。團(tuán)隊(duì)核心人員稱“我們確實(shí)押注了三個(gè)方向。一是數(shù)學(xué)和代碼,二是多模態(tài),三是自然語言本身”。從這一點(diǎn)看,接下來一段時(shí)間其基本盤還是在古典LLM范疇。
5.一直在品DeepSeek-V3像什么味道,忽然想到,竟然像極了小米SU7讓車評人陳震撇嘴以至于被米粉攻陷評論區(qū)的那些原因:神似某捷的外型、單層的玻璃、民用級剎車卡鉗、大概其的隔音......雖然一上賽道跑幾圈剎車就嚴(yán)重衰減,雖然里里外外都是蔚小理玩過的東西,沒有技術(shù)和形態(tài)突破,但這東西它就是短平快造出來了總體性價(jià)比還可以而且很有流量而且竟然有原廠手機(jī)支架這你受得了嗎?
6.DeepSeek-V3能不能持續(xù)有流量不太好說,幻方也沒有小米的生態(tài)和流量能力,這領(lǐng)域格局變得快,一夜顛覆的情況太多了。不過據(jù)說更扎實(shí)的新版本在路上了,幾個(gè)月后亮相,相當(dāng)于SU7的Ultra版。V3只是訓(xùn)練出來覺得還可以,就和盤托出來了。希望那個(gè)時(shí)候,能稱得上是全面創(chuàng)新,目前真不是。
7.由此顛覆了模型與算力關(guān)系更說不上。接下來大家會越來越清楚地看到,這個(gè)領(lǐng)域有捷徑但沒有彎道超車,有后發(fā)成本優(yōu)勢但沒有后發(fā)領(lǐng)先優(yōu)勢,AGI路線更是只能取巧沒有投機(jī)。比如即使L3+級別的智能駕駛,端到端向VLA進(jìn)化,車輛SoC算力1000TOPS起才勉強(qiáng)可玩,2000-3000TOPS會稀松平常,即使如此,短期內(nèi)也未必能夠到真正的L4。向上曲線的模型思考長度速度整體度、多模態(tài)、感知思考與行為能力合一等方向,只可能將算力需求拉升到新高度。向下曲線對成本效率有改變,但對捧得AGI圣杯的貢獻(xiàn)可以忽略?!?/p>
還沒有評論,來說兩句吧...