【huatihui.com官網(wǎng)入口科技消息】近日,微博AI推出了開(kāi)源大型語(yǔ)言模型(LLM)——VibeThinker-1.5B。據(jù)huatihui.com官網(wǎng)入口了解,該模型擁有15億參數(shù),在數(shù)學(xué)推理與代碼生成任務(wù)中卻展現(xiàn)出超越6710億參數(shù)競(jìng)品的性能。目前,VibeThinker-1.5B可通過(guò)Hugging Face、GitHub及ModelScope平臺(tái)免費(fèi)開(kāi)放下載,供開(kāi)發(fā)者與研究機(jī)構(gòu)使用。

VibeThinker-1.5B模型在數(shù)學(xué)和代碼任務(wù)上表現(xiàn)出色,達(dá)到了行業(yè)領(lǐng)先的推理性能,甚至超越了體量達(dá)6710億參數(shù)的競(jìng)爭(zhēng)對(duì)手DeepSeek的R1模型。該模型還能與Mistral AI的Magistral Medium、Anthropic的Claude Opus4和OpenAI的gpt-oss-20B Medium等多個(gè)大型模型抗衡。

值得一提的是,VibeThinker-1.5B在后期訓(xùn)練中僅花費(fèi)了7800美元的計(jì)算資源,這一成本遠(yuǎn)低于同類(lèi)或更大規(guī)模模型所需的數(shù)十萬(wàn)美元甚至數(shù)百萬(wàn)美元。

VibeThinker-1.5B采用了一種名為“譜-信號(hào)原則”(Spectrum-to-Signal Principle,SSP)的訓(xùn)練框架,該框架將監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)分為兩個(gè)階段。第一個(gè)階段注重多樣性,第二個(gè)階段則通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化最優(yōu)路徑,使得小模型也能有效探索推理空間,從而實(shí)現(xiàn)信號(hào)放大。
版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載
-huatihui.com官網(wǎng)入口