來源:知危
大家好,這里是知危編輯部,看完剛剛結束的 OpenAI 新品發布直播,我們的心里產生了巨大的疑惑:
就這?就這?就這???
昨天,OpenAI 的 CEO 奧特曼高調宣布了 OpenAI 將會從今天開始開啟一個為期 12 天的開放日活動,宣稱接下來每個工作日都會有一次直播,內容會包括新品發布或演示、一些大型活動和一些 “ 圣誕禮物 ”。
自打 9 月份發布了 o1 模型之后,?OpenAI 憋了快一個季度沒有新的大動作了,本來以為是要 “ 連開七天春晚 ” 的節奏,編輯部已經做好 “ 連續熬夜 12 天挑戰 ”?的準備。
結果,剛剛結束的本輪活動第一場直播,15 分鐘就草草收場了,可以說是OpenAI 過往直播發布會里最無聊的一集,有一種被奧特曼耍了的感覺。。。
這就是 12 天超長活動的強度嗎?也太低了吧???
好了,發完牢騷,還是跟大家介紹一下這場發布會的內容,雖然短,但也還是有一定有效信息。
首先,o1 完全體模型正式版上線,同時還推出了一個?o1 Pro 模型并且相應推出了?ChatGPT Pro 訂閱以及高級語音功能,相較于之前?Plus?訂閱 20 美元每月的價格,Pro 訂閱高達 200 美元每月,不過可以不限次使用 o1 Pro 模型和高級語音功能,也算是量大管飽了。
而在模型效果上,官方紙面數據其實并沒有特別大的飛躍性提升。。。
為什么這么說呢,因為根據官方給出的跑分數據,o1 正式版模型的能力僅在數學和編程方面有較大的提升,但在博士級別問題的提升上非常小,新推出的 o1 Pro 版本也僅在各方面比 o1 正式版模型提高了一點點。
要知道,o1 模型發布時主打的就是能在博士級別的回答中有出色表現,結果正式版和 Pro 版在這方面相比預覽版基本沒有什么提升,也是有些讓人期望落空的。
知危編輯部之前找過清華、北大、南京大學的三個博士測試評價過?o1 預覽版模型,三位博士表示 o1 確實在思維和知識儲備上達到了博士的水準,但無法對課題進行探索和提供更深的研究思路,所以并沒有真正達到 “ 做學術 ” 的水平。
現在是半夜我們沒辦法聯系之前的博士進行測試,不過從官方公布的僅僅 5 分的提高上來看,估計效果體感應該不會有什么較大區別,數據是騙不了人的。
不過,雖然模型的回答能力提升不多,但是模型的體驗還是提升很大的,o1 正式版模型的重大錯誤犯錯率比 o1 預覽模板少了約 34%,同時回答速度提高了約 50% 。
直播現場對比提問了 “?列出二世紀的羅馬皇帝,包括他們的時期和成就?” 這個問題,o1 正式版給出回答用時僅有 14 秒,比 o1 預覽版的 33 秒快了近 20 秒,體感差距還是很大的。
而在回答的可靠性上,為了更明顯的對比,OpenAI 采用了 “ 4/4 可靠性 ” 測試,具體來講就是:僅當模型在四次問答中四次都能夠正確回答問題,才被認為是解決了該問題。
在?“ 4/4 可靠性?”?測試的評分上來看,o1 正式版在各個領域都比預覽版有顯著的可靠性提高,同時 Pro 版比正式版也有較大提高。
除了體驗上的提升,還有交互上的提升,o1 正式版模型現在支持多模態輸入了,你可以通過圖+文字的形式向模型進行提問。
在直播現場,OpenAI?團隊畫了一張 “ 太空數據中心 ” 草圖,并讓?o1 模型回答圖中設施給 GPU 散熱的散熱器面積理論上應該需要多大,并且回答是時要考慮到 “?如何處理太陽和深空的影響?” 以及 “?熱力學第一定律在其中如何發揮作用?” 這兩個問題。
o1 僅用 10 秒就回答了這個問題,他非常聰明的捕捉到了圖中的 1GW 的輸入功率元素,這是一個關鍵信息,同時指出了系統只能通過熱輻射散熱。
與此同時,工作人員在提問時故意規避了一個信息,那就是整個系統的正常工作溫度應該是多少,但 o1 模型自己聰明的定義了系統應該在 300K 也就是 27 攝氏度的環境下工作,進而開始估算散熱板所需要的面積。
圖中回答的大致翻譯:所需的散熱器面積對散熱器的平衡溫度高度敏感。較低的散熱器溫度意味著每單位面積的輻射量減少,因此需要更大的面積。而較高的散熱器溫度則可以減少所需面積,但可能增加工程復雜性(因為需要使用能夠承受更高溫度且仍保持高輻射率的材料)。
為了說明問題,我們選擇一個相對適中的散熱器溫度,例如 T = 300 K(約27°C),這是電子設備或冷卻循環系統溫度的一個合理上限。這將為我們提供一個基準值。在計算面積下限時,我們假設沒有寄生熱負荷,并且系統處于理想條件。
(注:如果允許系統運行在更高溫度,所需面積會減少。我們將在 300 K 下進行一個示例計算,并說明溫度變化如何影響面積需求。)
整體來說,這次發布的東西雖然沒有大家期望中的那么好,大家期望的 Sora 正式版、GPT-5、AI 搜索瀏覽器等產品都沒有出現,但好在正式版 o1 和 o1 Pro 也勉強說得過去。
不知都后面剩下的?11?場直播內容會不會覆蓋到大家期望的東西,搞不好 OpenAI 想壓軸在臨近圣誕節的時候給大家來個圣誕驚喜也沒準~
哦,對了還有一件事情漏掉了,那就是因為?o1 Pro 模型的思考深度比?o1 要高,耗時會更長,所以為了用戶體驗,OpenAI 給模型加入了一個回答進度條,這么做可以非常有效的緩解用戶在等待回答時候的焦慮。
(轉自:知危)