發(fā)布時間:2021-06-30 來源:蓋世汽車
據(jù)外媒報道,哥倫比亞大學(xué)工程學(xué)院的研究人員推出一種計算機視覺技術(shù),通過利用人、動物和物體之間的高層次關(guān)聯(lián),讓機器對接下來會發(fā)生的事情有更直觀的感知。
哥倫比亞大學(xué)計算機科學(xué)助理教授Carl Vondrick表示:“我們的算法使機器能夠?qū)θ祟愋袨樽龀龈玫念A(yù)測,從而更好地協(xié)調(diào)機器與我們的行為。此項研究結(jié)果為人機協(xié)作、自動駕駛汽車和輔助技術(shù)開辟了更多可能性?!?/p>
研究人員稱,該算法是迄今為止,對視頻內(nèi)未來幾分鐘的動作事件預(yù)測的最準確的方法。在分析了數(shù)千小時的電影、體育比賽和“辦公室(The Office)”等節(jié)目后,該系統(tǒng)學(xué)會了預(yù)測上百種活動,從握手到碰拳。而當系統(tǒng)無法預(yù)測具體的動作時,就會找到將動作聯(lián)系起來的更高級別的概念,即“問候(greeting)”。
(圖片來源:哥倫比亞大學(xué))
過去在預(yù)測機器學(xué)習(xí)方面的嘗試,包括團隊嘗試,都是一次只預(yù)測一個動作。算法決定是否將動作歸類為擁抱、擊掌、握手,甚至是“忽略”等非動作。但當不確定性很高時,大多數(shù)機器學(xué)習(xí)模型都無法找到可能選項間的共性。
哥倫比亞大學(xué)工程學(xué)院博士學(xué)生Didac Suris和Ruoshi Liu決定從不同的角度來看待更長期的預(yù)測問題。Suris稱:“未來的一切并非都是可以預(yù)測的。當一個人無法準確預(yù)見會發(fā)生什么時,他們會謹慎行事并在更高的抽象層次上進行預(yù)測。我們的算法是第一個學(xué)習(xí)抽象推理未來事件能力的算法。”
因此,Suris和Liu重新研究古希臘數(shù)學(xué)問題。在高中,學(xué)生會學(xué)習(xí)熟悉且直觀的幾何原則:直線是筆直的,平行線永遠不會交叉。而大多數(shù)機器學(xué)習(xí)系統(tǒng)也遵守這些原則。但是,其他幾何圖形具有奇異的、違反直覺的特性,如直線彎曲和三角形凸出。Suris和Liu使用這些不尋常的幾何結(jié)構(gòu)來構(gòu)建AI模型,從而組織高級概念并預(yù)測未來的人類行為。
麻省理工學(xué)院(MIT)高級研究科學(xué)家、MIT -IBM沃森人工智能實驗室(Watson AI Lab)聯(lián)合主任Aude Oliva表示:“預(yù)測是人類智能的基礎(chǔ)。人類永遠不會犯的錯誤,機器會犯,因為它們?nèi)狈ξ覀兂橄笸评淼哪芰?。而這項工作是彌合這一技術(shù)差距的關(guān)鍵一步?!?/p>
研究人員開發(fā)的數(shù)學(xué)框架可以使機器能夠根據(jù)事件在未來的可預(yù)測性組織事件。 例如,我們知道游泳和跑步都是鍛煉的形式。而該新技術(shù)可學(xué)習(xí)如何自行對這些活動進行分類。系統(tǒng)可以識別不確定性,在確定時提供更具體的操作,并在不確定時提供更通用的預(yù)測。
研究人員說,這項技術(shù)可以讓計算機更接近于評估環(huán)境并做出細微決定,而非預(yù)先編程的動作。該論文的共同主要作者Liu稱:“這是在人與計算機之間建立信任的關(guān)鍵一步。信任來自機器人真正了解人的感覺,如果機器能夠理解和預(yù)測我們的行為,計算機將能夠無縫地協(xié)助人們進行日常活動?!?/p>
Vondrick說:“與之前相比,雖然新算法對基準任務(wù)的預(yù)測更準確,但接下來的步驟將驗證該算法在實驗室外是否有效?!毖芯咳藛T說:“如果該系統(tǒng)可以在不同的環(huán)境中工作,那么就很有可能部署機器和機器人,從而改善我們的安全、健康和保障?!痹撔〗M計劃繼續(xù)使用更大的數(shù)據(jù)集和計算機以及其他形式的幾何來提高算法的性能。Vondrick評論道:“人類的行為常常出乎意料。而我們的算法可以使機器能夠更好地預(yù)測他們接下來要做什么?!?/p>