本報記者 樊三彩
“一只狼對著月亮嚎叫,感到孤獨,直到它找到狼群。”
“一位時尚女性走在充滿溫暖霓虹燈和動畫城市標牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子,拎著黑色錢包。”
“一只貓叫醒熟睡的主人,要求吃早餐。主人試圖忽視這只貓,但貓嘗試了新的策略,最后主人從枕頭下拿出秘密藏匿的零食,讓貓再呆一會兒。”
…………
能想象嗎,這些清晰流暢的視頻場景,竟然出自一款人工智能模型。2月16日,OpenAI時隔一年再出“王炸”,宣布推出全新的生成式人工智能模型Sora。該模型可以直接輸出長達60秒的視頻,并且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。截至目前,其官網已經更新48個類似的視頻demo(樣片)。
這一突破引起業內人士廣泛關注的原因在于,2021年初和2022年末,OpenAI先后推出了圖像生成系統DALL·E和聊天機器人ChatGPT。此次則是繼圖像、文本之后,將先進的AI(人工智能)技術拓展到了視頻領域,視頻相關業務或將首當其沖。工業4.0研究院院長胡權告訴《中國冶金報》記者:“當國內還掙扎在4秒AI視頻的連貫性的邊緣時,OpenAI已經可以制作60秒的視頻了。當我們以為快要追趕上他們的腳步時,突然發現差距正在越來越大。”
中美AI差距或在加大
基礎研究不到位是關鍵
通過文字生成視頻,對于大模型而言,難在哪里?華為技術有限公司運營商服務解決方案規劃部客戶技術總監顧廷權表示:“sora是根據人的文字描述(類似簡單劇本)生成相應的視頻(類似MV電影),這就需要為模型訓練數據做高描述性的標注,大模型不僅要理解提示的內容,還要構建這些內容在物理世界中的存在方式。”
OpenAI發布的Sora核心論文顯示,Sora采用了一種Transformer架構,能夠處理視頻和圖像潛在編碼的時空片段。它創新應用了多項技術,如實現視覺數據創新轉化的補片技術(先將視頻數據壓縮到低維度潛在空間,再將其分解成時空補片,進而實現從視頻到補片的轉化)、視頻生成的Transformer擴展技術等。
“同樣是生成虛擬空間,其實數字孿生相較于Sora的難度更高。”顧廷權剖析道,“數字孿生與自動駕駛類似,可以劃分為若干成熟度等級(如L0、L1、L2、L3、L4等),目前大多數字孿生都在L2級以下,僅實現了可視化和虛實簡單交互等功能。”胡權同樣認為:“相較于數字孿生體的先進應用(不是當前一些人認為的可視化或局部的仿真),OpenAI做的東西還沒有涉及物理世界,難度當然要小得多。”
同時,我國也在大力發展人工智能大模型,據不完全統計,目前已達上百個。既然如此,為何中美人工智能領域差距始終存在,并且再度加大?360創始人周鴻祎微博發文認為:“盡管國內大模型發展水平表面看已經接近GPT-3.5,但實際上跟4.0比還有一年半的差距。OpenAl手里應該還有一些秘密武器,無論是 GPT-5,還是機器通過自我學習自動產生內容,奧特曼(OpenAI CEO)是個營銷大師,知道怎樣掌握節奏,他們手里的武器并沒有全拿出來。這樣看來,中國跟美國的AI差距可能還在加大。”
在胡權看來,基礎研究不到位是差距形成的關鍵所在。“由于ChatGPT-3.5已經實現開源,國內很多大模型公司都在這一基礎上開展研究,這意味著我們在沿著別人的技術路徑前進,因而很難實現超越。”他表示,目前國內存在一種資源錯配的現象,如很多科研院所也在開展大模型應用研究以圖盈利,當前的科研體制導致我們很難形成開創性的突破。此外,新型的AI發展需要大量投資,目前國內的投資強度遠遠不夠;產業環境不利于創新,例如,監管過于嚴格,企業無法低風險試錯。他建議,國家通過設立基金的方式來支持人工智能的發展,而不是指定企業或項目,這樣才能讓那些真正有實力的項目涌現出來。
AGI不再遙遠 工業應用猶可期
值得注意的是,Sora并非完美。正如公開的核心論文所說:“作為一個模擬器,Sora當前還有許多局限。比如,它無法精確模擬像玻璃破碎這樣的基本物理互動。有些互動,比如吃東西,并不總能正確反映物體狀態的改變。我們在OpenAI Sora 介紹頁中詳細列出了模型的其它常見失誤,包括長時間視頻樣本中出現的不一致性或物體的突然出現等問題。”
即使存在這樣的局限,也無法掩蓋其依舊是一款劃時代的人工智能模型,依舊是“向著創建能夠模擬物理世界的通用工具邁出的有前途的一步”。
周鴻祎認為,Sora 的誕生意味著實現 AGI(通用人工智能)可能從10 年縮短至一兩年。“有了大模型技術作為基礎,再加上人類知識的引導,可以創造各個領域的超級工具,例如在生物醫學、蛋白質、基因研究以及物理、化學、數學的學科研究上,大模型都會發揮作用。”他表示。
科技創業公司研究機構PitchBook估計,2023年全球生成式AI的市場規模將達到426億美元,2026年則將達到981億美元,未來增長動能可期。而不斷涌現的生成式人工智能,其對于人類的影響每次都會引發廣泛關注與討論。
周鴻祎表示,這次OpenAI利用它的大語言模型優勢,讓Sora實現了對現實世界的理解和對世界的模擬兩層能力,這樣產生的視頻才是真實的,才能跳出2D的范圍模擬真實的物理世界。“這次 Sora對物理世界的模擬,至少將會對機器人具身智能和自動駕駛帶來巨大的影響。原來的自動駕駛技術過度強調感知層面,而沒有工作在認知層面。其實人在駕駛汽車的時候,很多判斷是基于對這個世界的理解。比如對方的速度怎么樣,能否發生碰撞,碰撞嚴重性如何,如果沒有對世界的理解就很難實現真正的無人駕駛。”他說。
“在大模型與人類或企業的關系上,如果大模型良性發展,會成為人類的AI助手;反之,會被大量濫用,再由國家力量禁止或打擊。”胡權指出。
至于在工業上的應用,胡權表示:“通過文字生成視頻,已經沒有原理上的障礙了,但工程上的困難還比較多:一是設計一個應用系統,這里面涉及一些類似黑箱的模塊,看起來OpenAI不會開源;二是需要用數據來訓練算法,否則無法生成好的結果,類似ChatGPT的模型算法一樣;三是計算能力,跟隨者需要擁有類似的計算能力。”
相關鏈接
AI在贊比亞
探測到巨型銅礦
2月初,利用AI勘探銅、鋰等綠色轉型所需金屬的硅谷獨角獸KoBold Metals宣布,公司在贊比亞Mingomba項目上發現了巨型銅礦儲量。這家公司背后的投資者是由比爾·蓋茨牽頭,貝索斯、馬云、孫正義、達利歐、布隆伯格等人參與投資的突破能源風險投資基金,以及普徠仕等知名機構和挪威國家石油公司。
據悉,該公司利用AI技術大量讀取分析所有地球衛星拍攝的地質圖片、激光地球掃描數據,以及全球的地震波數據,并用時一年重新繪制了一張精細無比的全球地殼礦藏分布圖,并借此在贊比亞探測到一個巨型銅礦。
多家科技企業承諾打擊
濫用人工智能干擾選舉
2月16日,全球多家科技企業在第60屆慕尼黑安全會議(慕安會)上簽署協議,承諾在2024年這個多國舉行重要選舉的年份打擊旨在干擾選舉的人工智能濫用行為。人工智能的負面影響被此屆慕安會列為全球主要安全威脅之一。
微軟將在德國投資
32億歐元發展人工智能
2月15日,微軟公司總裁在德國首都舉行的一次活動上表示,未來兩年,微軟將在德國投資32億歐元,重點發展人工智能。作為該公司過去40年來在德國進行的最大一筆投資,微軟將在2024年和2025年把大部分資金用于建立數據中心和培訓人工智能人才。
日本計劃2024年
引入生成式人工智能立法
近日,據日經新聞報道稱,日本執政黨自民黨計劃在2024年提議政府引入生成式人工智能立法。
《中國冶金報》(2024年02月20日 04版四版)