OpenAI 公布新語言模型 GPT-4o:能陪你唱歌、聊天、還能讀懂情緒和氣氛


GPT-4o 回話的速度可能比我還要快

OpenAI 在台灣時間 5/14 凌晨 1 點的發表會上,公布了最新的生成式 AI 模型 GPT-4o,能即時針對音訊、影像和文字進行推理,簡單來說,GPT-4o 可以透過鏡頭,知道你現在正在幹嘛,還可以判斷剪刀石頭布誰贏誰輸,或是又平手這樣,平均只需 320 毫秒就能做出回應,和人類對話的反應時間已經非常接近

OpenAI 公布新語言模型 GPT-4o:能陪你唱歌、聊天、還能讀懂情緒和氣氛

GPT-4o 可以做到哪些事

GPT-4o 的 o 代表 omni,實際看了 OpenAI demo 的影片,不得不說 GPT-4o 真的很全能,不但情緒聽起來超有起伏,而且聽起來一點都不敷衍,問它:「你覺得我今天穿得適合去面試嗎?」或是「看得出來現在我正在做啥嗎?」,GPT-4o 都答得出來,還會給一些蠻有建設性的意見,還可以從呼吸聲判斷你是不是剛運動完、聽聲音就知道你的情緒如何


比 Siri 更有感情?

就連把狗狗抱到鏡頭前,GPT-4o  都可以看出牠正在快樂地玩球中,如果從旁邊經過,沒有看到手機螢幕的話,真的會以為 demo 的人正在與他朋友視訊聊天,而不是在和 AI 對談(看完所有 demo 影片的我 was like: 😦)


OpenAI 技術長 Muri Murati 指出,GPT-4o 主要是透過語音、文字、影像來進行推理,能夠在 232 毫秒的時間內,回應你所輸入的語音資料,且平均只需花 320 毫秒。它實現了 GPT-4 Turbo 等級的旗艦效能,也接受了圖形和文字組合的訓練,能夠分析照片和文字,來完成從照片中擷取重點的認為,同時 GPT-4o 也新增了語音功能,有語音功能、還能即時回應是一回事,但聽起來像是個會思考、又有情緒的人又是另一回事,而隨著 GPT-4o 的視覺能力也被提升,不但能做到基本的算數,還能判斷軟體程式碼,另外,GPT-4o 在 50 種主要語言的表現也提升了,只能說 GPT-4o 實在是有點強大


ChatGPT 的桌面版也將登場

GPT-4o 預計在幾週之後,對所有使用者開放,有付費的使用者,將會比免費使用者擁有更多的使用次數和訊息容量。而除了展示強大的 GPT-4o,OpenAI 也在活動中,宣布將推出 ChatGPT 的桌面版,到時會先支援 macOS,目標是要將 ChatGPT 整合進電腦系統中,到處都在 AI,是說如果在六月的 WWDC 看到 ChatGPT 出現在 iOS 18 裡面,我好像也不會很意外叻(延伸閱讀:蘋果 WWDC 將於臺灣時間 6 月 11 日凌晨登場!預計可看到 iOS、iPadOS、macOS 和 visionOS 的更新

(新聞來源:OpenAI

電獺少女 LINE 官方帳號好友募集中!精選每日科技新聞和促咪事件,還有各類 App 的密技心得,就差你沒加!  

Henley

Henley

喜歡喝美式和走路,常會因為奇怪的小事被戳中笑點,想去一百個國家旅行,然後在幾乎不太會下雨的城市定居