兩岸經濟

阿里巴巴發佈AI模型 聲稱超越DeepSeek

阿里巴巴透過旗下的阿里雲,發表了自家的AI語言模型通義千問Qwen 2.5-Max超大規模MoE模型,甚至號稱測試表現上優於DeepSeek V3。

文/美國之音

中國科技公司阿里巴巴星期三(1月29日)發佈了其通義千問「Qwen 2.5」人工智慧(AI)模型的新版本,並聲稱該模型已超越備受讚譽的DeepSeek-V3。

阿里雲發佈其全新的通義千問 Qwen 2.5-Max超大規模混合專家(MoE)模型的時間較不尋常,正值農曆新年第一天,大多數中國人正在放假與家人團聚。這意味著中國AI初創公司深度求索(DeepSeek)過去三周的迅猛崛起,不僅給海外競爭對手、也給國內競爭者帶來了壓力。

「Qwen 2.5-Max…幾乎全面超越了GPT-4o、DeepSeek-V3及Llama-3.1-405B,」阿里雲在微信公眾號上發佈的一篇公告中說,其指的分別是OpenAI、深度求索和Meta最先進的開源AI模型。

據介紹,Qwen 2.5-Max使用超過20萬億token(AI模型處理的資料單位)的預訓練資料及精心設計的後訓練方案進行訓練。

阿里雲說,通義團隊分別對Qwen2.5-Max的指令(Instruct)模型版本和基座(base)模型版本性能進行了評估測試。在指令模型測試方面,Qwen2.5-Max在多個基準測試中比肩美國的Claude-3.5-Sonnet模型,並幾乎全面超越了另外三個美國模型GPT-4o、DeepSeek-V3及Llama-3.1-405B。

阿里雲表示,在基座模型測試方面,通義團隊將Qwen2.5-Max與目前DeepSeek V3、Llama-3.1-405B、Qwen2.5-72B進行了對比,而Qwen2.5-Max在所有11項基準測試中全部超越了對比模型。

不過,微信公眾號「簡約財經」的帖子指出,Qwen 2.5-Max 在發展過程中仍面臨著諸多挑戰和風險,其中包括在技術挑戰方面,訓練優化過程中的計算資源消耗和時間成本問題,以及模型在複雜任務和多模態融合方面的性能提升需求,都需要進一步的研究和創新來解決。

這篇帖子說,在倫理與安全風險方面,Qwen 2.5-Max也面臨資料隱私保護、模型偏見避免以及內容真實性和 AI 濫用防範等需要高度重視的問題。

DeepSeek與國內競爭對手

深度求索1月10日發佈了其DeepSeek-V3模型驅動的AI助手,隨後在1月20日推出R1模型。這一系列AI模型的新發佈震撼了矽谷,並導致科技股重挫。深度求索據稱低廉的開發和使用成本,促使投資者開始質疑美國領先AI公司的巨額支出計畫。

深度求索的成功也引發了國內競爭對手競相升級其本身的AI模型。

在DeepSeek-R1發佈兩天後,TikTok母公司字節跳動推出了其旗艦AI模型的更新,並聲稱該模型在AIME(旨在衡量AI模型對複雜指令的理解和回應能力的一項基準測試)中的表現優於微軟支持的OpenAI的o1模型。

這與深度求索的說法相似。深度求索聲稱其R1模型在多個性能基準測試中可比得上OpenAI的o1。

DeepSeek-V3模型的前身DeepSeek-V2於去年5月發佈後,引發了中國AI模型的價格戰。

DeepSeek-V2採用開源和空前低廉的價格(每百萬個tokens僅需1元人民幣),導致阿里雲宣佈對一系列模型的降價幅度最高達97%。

其他中國科技公司紛紛跟進,包括百度(2023年3月發佈中國首個類同於ChatGPT的產品)以及中國市值最高的互聯網公司騰訊。

深度求索的神秘創始人梁文鋒在去年7月接受中國媒體《暗湧》(Waves)的罕見採訪中表示,該公司「不在乎」價格戰,其主要目標是實現AGI(通用人工智慧)。

OpenAI將AGI定義為能夠在大多數具有經濟價值的任務上超越人類的自主系統。

相較於阿里巴巴等中國大型科技公司擁有數十萬名員工,深度求索的運作方式像是一個研究實驗室,其團隊主要由來自中國頂尖高校的年輕畢業生和博士生組成。

梁文鋒在去年7月的採訪中表示,他認為中國大型科技公司可能不太適合未來的AI產業,並將這些企業的高成本和自上而下的架構,與深度求索採用的精簡運營和寬鬆管理的風格,進行了對比。

「大型基礎模型需要持續創新,科技巨頭的能力是有限的,」他說。

連結:阿里巴巴发布AI模型 声称超越DeepSeek

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *