兩岸國際經濟

專訪:DeepSeek為何能在AI大模型中脫穎而出

中國AI初創公司深度求索(DeepSeek)推出的人工智慧聊天機器人登頂蘋果應用商店下載榜。

文/德國之聲

DeepSeek以「AI大模型圈黑馬「迅猛崛起,如何以低成本推出頂級模型?DeepSeek的成功是否意味著中國在AI領域趕超美國?歐洲AI領域為何相對落後?Jina AI創始人蕭涵博士在德國之聲專訪中分享了他對DeepSeek在技術創新、商業策略上的看法,並探討了中美在AI發展中的角色與分工。

德國之聲:DeepSeek被不少人稱為「神秘的東方力量」。其原因之一在於性能比肩GPT-4o的DeepSeek-V3,據其自稱訓練成本不到GPT-4o的1/20。也有人質疑其真實成本是否更多?您認為用如此低的成本訓練出頂級的模型有可能嗎?

蕭涵博士:我認為完全有可能。首先這並不包含試錯成本的,也就是「炮灰成本」。只計算這一次成功花了五百多萬。其次大模型本身的訓練技巧,隨著時間變化,發生了很多演進和升級。像OpenAI這種頂尖公司,發佈一項產品需要打磨很久,成品出來可以從發佈日期向前倒退3、4個月,而DeepSeek本身不需要做太多PR相關的宣傳,準備大概一個月左右,所以這兩個模型之間差了有小半年,在這個時間差裡,模型的發展是非常迅速的。不管從數學上還是深度學習上會出現很多新知識使得模型訓練更有效。而且就我所知,DeepSeek在2023年就開始做一些非常底層的技術優化,再加上整個開源社區,在過去兩三年之內,會有很多新的一些技巧,使得成本會降得非常低。

德國之聲:您剛才提到開源社區, DeepSeek便宜又好用,有人認為它的成功不僅是技術層面,更是對開源精神的徹底踐行,您認為就開源與閉源而言,開源會是未來趨勢所在嗎?

我覺得就AI模型而言,未來價格肯定是越來越便宜,這在未來會像是水電煤氣一樣,成為通用的基礎設施。好比我們現在不會在每個月為上網花多少錢糾結一樣。但便宜是有代價的。因為就很多初創公司而言,它無法支付這麼高的運營成本。DeepSee之前積攢了非常多的GPU,它現在把這部分算力一下釋放出來,肯定會對市場造成衝擊。而開源本身,和價格以及商業化之間是一個非常複雜的關係。有人非常討厭開源——比如早期的比爾蓋茨。他曾經非常討厭Linux,因為他覺得Linux開源免費,沒有人願意用Windows了。所以這兩天我們看到Altman(OpenAI CEO)和Amodei(Anthropic CEO)反應非常激烈,因為覺得DeepSeek這種低價策略加上開源,導致他們的客戶流失非常嚴重。

德國之聲:所以主要還是商業利益上的衝突,從DeepSeek來說,這可能是個很好的戰略?

從DeepSeek角度來說,把模型開源確實是一個非常好的戰略,但得看它之後是不是堅持開源,如果堅持開源就是戰略,假如只開源這一次,就是一個戰術。為什麼說是很好的戰略呢?因為西方對中國模型本身並不放心,他覺得模型內部訓練時就有了價值觀偏見。因為生成類AI的輸出風格和他的訓練樣本非常相關。大家都知道中國互聯網基本處於一個封閉狀態,西方人會對「模型自帶的意識形態」產生害怕心理。而選擇開源的話,就相當你把我模型的資料(不是訓練模型的資料)下載下來放到自己的GPU上去跑,包括我們今天看到Amazon和輝達的雲伺服器都支援了DeepSeek模型,就是因為它選擇開源模式。部署到本機內部,西方也無所謂什麼顧慮,不管什麼價值觀輸出,至少不存在資訊傳回中國政府這種。

德國之聲:您剛剛說到西方的顧慮,正好有一則新聞,義大利宣佈暫時禁用DeepSeek,理由是就資料保護給出的資訊不充分。不少國家監管機構也開始對DeepSeek資料保護漏洞行調查。資料保護問題是對使用AI模型的普遍憂慮嗎?

首先義大利並不只是針對DeepSeek,它當年也針對OpenAI,以及Google。但我覺得歐洲對於發展AI和個人隱私保護這兩者沒有捋得很清楚。這兩者肯定要有一先一後,幾乎不可能同時解決。這也是為什麼歐洲之所以今天在AI方面比較落後,它把這兩個矛盾沒有理清楚。在這一領域中美走得比較前面就是因為大家在資料保護上相對還是「睜一隻眼閉一隻眼」。比如我曾在三藩市參加一個聚會,有個小遊戲要求一小時內寫一個小程式:掃描人臉——生成一條pick up line (搭訕)原理是:用掃描得到的人臉匹配Linkin個人資訊再輸入GPT生成。我在歐洲呆久了,想,這app侵犯人隱私權不得完蛋啊,結果底下美國人一片歡呼。所以這可能還是文化不同。

德國之聲:說到中美在AI領域走在前列。有人比喻美國主要做從0到1,也就是技術創新,中國人是做從1到10,應用創新。這次DeepSeek成功,有人認為仍然只是應用層面的提高,沒有技術創新,但也有人認為DeepSeek已經出現根本性突破。您認為有技術層面的創新嗎?

根本突破不存在。DeepSeek肯定是從1到10,因為是OpenAI先做出來,這點毋庸置疑。DeepSeek是在它之後做出來,但在工程上把成本壓得非常低。並且我覺得在這個問題上,我認為在過去二三十年中美發展以及世界經濟發展都離不開中美非常明確的分工 – 美國負責0到1,中國1到10,明確分工之下,世界才能和平發展,經濟穩定向前,如果其中哪一方覺得「不公平,我也想做0到1,或者美國說「憑什麼1到10都是你」,比如我要把美國工廠都遷回來,這就有矛盾了是不是?一旦矛盾出現,分工開始出現糾纏,大家都開始想著利益重新劃分。

德國之聲:所以DeepSeek是站在前人0到1的基礎上,比如思維鏈這種,他不是第一個提出來,但是它挖得比較深。

對,它有勇氣去深入挖掘,這本身和DeepSeek的公司背景有關係。這是一個量化公司,做量化交易,和普通公司最大的不同,他們在「玩錢」,「玩杠杆」,是非常危險的事,從這種角度,做量化交易的人往往更腳踏實地,不會道聼塗説哪種演算法好就拿來用,即使是Google,OpenAI發明的演算法,它也會做非常非常多的修改。相反很多AI公司他們多是互聯網所謂」大廠「思維 – 想著怎麼用產品經理的思維把產品做大,然後去marketing,去PR。產品本身如何在其次,至少用廣告打造、宣傳讓大家認為產品有前途。量化交易不是這種思維。所以這一點上也是DeepSeek區別於其他中國AI公司的地方。並且我覺得這次DeepSeek也是給中美一些非常愛玩廣告噱頭的AI公司的一個提醒,更關注的應該是把最有效的資源投入到解決最難的問題上。

德國之聲:這次DeepSeek震撼矽谷AI巨頭,震撼晶片交易市場,有人問,中國在AI領域要趕超美國了嗎?

我覺得差距肯定會越來越小,主要取決於兩點。第一點中國對於AI模型的監管是不是還是像現在這樣睜一隻眼閉一隻眼。比如政府肯定知道 ,比如這個模型在被提問時可能是會說出「天安門事件「這種敏感資訊(外文語言模式,或者模型離線使用,編者按),但它選擇不作為,我認為這是正確的,應該選擇不作為。模型層面不應該有審核,大模型提供商不應該被審核。審核的應該是下游做應用的層面。假設有一天中國政府說要對模型層面進行審核,那對AI的發展肯定會是一個非常不好的信號。第二點是能不能有更多初創公司進入這個賽道,投入到模型訓練這個紅海(競爭殘酷、激烈的市場)中。幾年下來不少AI初創都淡出了,如果之後因為價格戰內卷到比如只剩下DeepSeek和通義千問,這對於AI模型發展其實是不好的。

德國之聲:說到AI市場競爭,微軟和OpenAI聲稱DeepSeek蒸餾自己的模型來對其模型進行訓練,有人說這是無法避免的,您覺得這算「知識竊取「嗎?

OpenAI o1思維鏈並沒有公開,但DeepSeek的思維鏈是很清楚的,從它的「深度思考」模式你可以看到。OpenAI在比較模型時可能會覺得存在自己「被逆向工程」了的可能。但逆向工程這個東西在整個技術發展來講就是無法避免的。德國汽車都被逆向工程了多少回了嘛。我覺得這個東西用平常心對待就完了。就相當於發你一個律師函,就是給你點壓力。

蕭涵,德國慕尼黑工業大學獲得電腦科學博士。Jina AI 創始人兼 CEO 。德中人工智慧協會創始人兼主席 。

連結:专访:DeepSeek为何能在AI大模型中脱颖而出 – DW – 2025年2月1日

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *