VidEgoThink:具体的AIのためのエゴセントリックビデオ理解能力の評価VidEgoThink: Assessing Egocentric Video Understanding Capabilities for
Embodied AI
最近のMulti-modal Large Language Models(MLLMs)の進歩により、具体的AIの応用に新たな可能性が開かれました。以前の研究であるEgoThinkを基盤として、我々はVidEgoThinkを導入し、自己中心的なビデオ理解能力を評価する包括的なベンチマークを提供します。MLLMsと具体的AIにおける低レベル制御とのギャップを埋めるために、ビデオに関する質問応答、階層計画、視覚的な基盤、報酬モデリングという4つのキーと関連するタスクを設計します。手作業の注釈コストを最小限に抑えるために、Ego4Dデータセットに基づく自動データ生成パイプラインを開発し、GPT-4oの事前知識と多面的な能力を活用します。その後、3人の人間の注釈者が生成されたデータをフィルタリングして多様性と品質を確保し、VidEgoThinkベンチマークを作成します。APIベースのMLLMs、オープンソースの画像ベースのMLLMs、およびオープンソースのビデオベースのMLLMsの3種類のモデルを用いて、広範な実験を実施します。実験結果によると、GPT-4oを含むすべてのMLLMsは、自己中心的なビデオ理解に関連するすべてのタスクで低い性能を示しました。これらの結果から、基盤モデルは、具体的AIにおける第一者視点のシナリオに効果的に適用するためには、依然として大幅な進歩が必要であることが示唆されます。結論として、VidEgoThinkは、MLLMsを用いた自己中心的なビジョンに関する研究トレンドを反映しており、人間の能力に似た、複雑な現実世界環境での積極的な観察と相互作用を可能にします。