無責任投資論壇: DeepSeek危險了？「AI教母」出手太震撼頂尖AI模型花不到50美元

2025年2月11日星期二

DeepSeek危險了？「AI教母」出手太震撼頂尖AI模型花不到50美元

評析：看起來不過又另一隻在水桶裡釣魚的貓...

不懂意思的，請見：https://www.threads.net/@winwin17888/post/DFeFe5vTovf

DeepSeek危險了？「AI教母」出手太震撼頂尖AI模型花不到50美元
2025.02.07 16:50 中時新聞網【中時新聞網吳美觀】DeepSeek強敵來了！被譽為「AI教母」的知名華裔美籍科學家李飛飛領導的團隊，以低於50美元（約台幣1,600元）的雲端運算成本，成功訓練出名為「s1」的人工智慧推理模型。此模型在數學和編碼能力測驗中的表現，據稱媲美OpenAI o1和DeepSeek R1等尖端推理模型。

科創板日報、新浪科技報導，李飛飛團隊的s1模型並非從頭訓練，而是建立在阿里巴巴的Qwen2.5和 Google DeepMind的Gemini 2.0 Flash Thinking的基礎之上。他們蒐集了1,000個精心挑選的問題及其解答，並透過記錄Gemini 2.0 Flash的思考過程，建立訓練資料集，利用這些資料，微調了Qwen2.5-32B-Instruct模型，創造出s1。

大陸某知名大模型公司CEO表示，李飛飛團隊的成就實際上是利用從Google模型中擷取的1,000個樣本來微調通義千問模型。這種微調的成本固然低廉，但其優異表現仍有賴於既有模型的基礎。

上海交通大學人工智慧學院副教授謝偉迪指出，s1以通義千問模型為基礎，因此即使使用有限的樣本資料，也能產生新的推理模型。然而，如果更換其他基礎模型，新模型的效能並不會提升。因此，真正在背後發揮效能的關鍵是Qwen模型，而非s1。

阿里雲證實，李飛飛團隊透過利用阿里開源的Qwen2.5-32B-Instruct模型進行監督微調，在16個輝達H100 GPU上僅花費26分鐘就訓練出s1-32B模型，其數學和編碼能力與OpenAI o1和DeepSeek R1等尖端推理模型不相上下。

無責任投資論壇

課程資訊與媒體訪談

課程資訊與媒體訪談

2025年2月11日星期二

DeepSeek危險了？「AI教母」出手太震撼頂尖AI模型花不到50美元

沒有留言:

發佈留言

課程資訊與媒體訪談

課程資訊與媒體訪談

2025年2月11日星期二

DeepSeek危險了？「AI教母」出手太震撼 頂尖AI模型花不到50美元

沒有留言:

發佈留言

DeepSeek危險了？「AI教母」出手太震撼頂尖AI模型花不到50美元