谷歌、OpenAI指明方向!第一個AI“殺手級應用”、AI手機必爭之地?
激石Pepperstone(http://1adez.com/)報道:
OpenAI搶發(fā)重磅新品次日,谷歌也“放大招”直接對壘GPT-4o。
當?shù)貢r間5月24日周二,年度Google I/O開發(fā)者大會上,谷歌CEO?Sundar Pichai發(fā)布了一系列與AI有關(guān)的新品和新功能,包括:AI Overviews技術(shù)生成摘要功能、Gemini 1.5 Pro上下文窗口拓寬至200萬Tokens、多模態(tài)Gemini Nano模型、第六代TPU芯片Trillium等。
圍繞AI搜索引擎方面,谷歌帶來了一系列更新。值得一提的是,谷歌發(fā)布了一款多模態(tài)AI項目Astra,用來處理音頻、視頻等多模態(tài)的輸入內(nèi)容。
演示視頻顯示,Astra可以通過手機攝像頭辨別物體,還能夠識別所處位置。
不論是定位還是功能,谷歌這款AI助手的到來顯然對GPT-4o產(chǎn)生了威脅。
華盛頓大學專門研究在線搜索的教授Chirag Shah對此評論道:
“最終,你會有一個真正了解你的代理,可以為你做很多事情,并執(zhí)行跨任務和跨領(lǐng)域的命令。”
谷歌還在發(fā)布會上表示,今年夏天開始,Gemini也將支持語音實時交互,并在今年晚些時候上線實時視頻交互。未來幾個月內(nèi),谷歌也將推出類似于GPTs的自定義AI助手功能,叫做Gems,能夠與整套“谷歌全家桶”聯(lián)動。
第一個AI“殺手級應用”?
從OpenAI和谷歌的發(fā)布會來看,GPT-4o目前只能處理靜止圖像,但Astra可以處理視頻,這是一個顯著的優(yōu)勢。
并且,谷歌在發(fā)布會上還對Gemini 1.5 Pro大模型進行了諸多更新,使其可以擁有更自然的聲音、更長的對話、對音頻和圖像的更好理解、更多的邏輯推理和規(guī)劃能力,以及更好的代碼生成。
不過,GPT-4o背后的技術(shù)創(chuàng)新同樣令人深刻。據(jù)悉,該原生多模態(tài)模型能夠直接接收/生成語音,而無需經(jīng)過語音-文字的轉(zhuǎn)化過程,大大縮短了運行周期;并且在執(zhí)行任務所需的參數(shù)量也大幅降低,從而提高運行速度、縮減成本。
就當前進展而言,很難判斷OpenAI和谷歌的AI助手中誰更勝一籌,但二者對該領(lǐng)域的重視程度是無疑的。
據(jù)媒體此前報道,蘋果也在考慮在其手機語音助手Siri中引入GPT技術(shù),以支持AI功能。
科技巨頭們相繼發(fā)力,是否意味著AI助手會成為下一個AI“殺手級應用”?
答案尚不肯定。
有分析指出,雖然目前GPT-4o和Astra展示出的用例都很有趣,但“幾乎沒有一個”是幫助人們完成工作的。也就是說,這兩款AI助手看似功能強大,但實際效用仍是未知。
分析稱,如果AI助手后續(xù)能夠更理解用戶的個人偏好,可能其“代理”屬性能夠有所增強,幫助用戶真正完成日常工作,比如網(wǎng)購、預訂、填表……
AI手機下一步需要解決什么?
雖然OpenAI和谷歌的AI助手可以直接通過語音、視頻等形式運行,但有觀點認為,二者仍不能被稱作是一個AI助手。
原因在于,GPT-4o和Astra雖然都可以回答問題并執(zhí)行搜索工作,但它們不能真正執(zhí)行任務。
華爾街見聞此前提及,OpenAI的在發(fā)展邊緣AI方面的痛點即為:端側(cè)應用權(quán)限、系統(tǒng)級權(quán)限。這可能也是它尋求與蘋果合作的原因之一。
就目前而言,只要AI助手產(chǎn)品還沒有真正接入到手機系統(tǒng)中去,Siri之類的語音助手的地位就無法被撼動。
有觀點指出,確定性要比AGI(通用人工智能)更重要,靠譜才是第一的。
該觀點認為,即使是目前最好的AI系統(tǒng),也沒有做足準備真正實現(xiàn)個人助手的功能;而手機自帶的語音助手雖然沒那么“有趣”,但至少不會出錯。?????????
掃描二維碼推送至手機訪問。
版權(quán)聲明:本文由激石Pepperstone發(fā)布,如需轉(zhuǎn)載請注明出處。