VidEgoThink:評估具身體式人工智能的自我中心視頻理解能力VidEgoThink: Assessing Egocentric Video Understanding Capabilities for
Embodied AI
最近在多模式大型語言模型(MLLMs)方面的進展為具體化人工智慧(Embodied AI)應用開辟了新的途徑。在以前的工作EgoThink的基礎上,我們引入了VidEgoThink,這是一個用於評估自我中心視頻理解能力的全面基準。為了彌合MLLMs和具體化人工智慧中低層控制之間的差距,我們設計了四個關鍵相關任務:視頻問答、層次規劃、視覺對齊和獎勵建模。為了減少手動標註成本,我們基於Ego4D數據集開發了一個自動數據生成流程,利用GPT-4o的先前知識和多模式能力。然後,三名人類標註者過濾生成的數據,以確保多樣性和質量,從而產生了VidEgoThink基準。我們對三種類型的模型進行了廣泛實驗:基於API的MLLMs、基於開源圖像的MLLMs和基於開源視頻的MLLMs。實驗結果表明,所有MLLMs,包括GPT-4o,在與自我中心視頻理解相關的所有任務中表現不佳。這些發現表明,基礎模型仍需要顯著進步,才能有效應用於具體化人工智慧中的第一人稱場景。總之,VidEgoThink反映了一種研究趨勢,即利用MLLMs進行自我中心視覺,類似於人類能力,實現在複雜的現實世界環境中的主動觀察和互動。