VideoAgent: ビデオ理解のためのメモリ拡張型マルチモーダルエージェント
VideoAgent: A Memory-augmented Multimodal Agent for Video Understanding
March 18, 2024
著者: Yue Fan, Xiaojian Ma, Rujie Wu, Yuntao Du, Jiaqi Li, Zhi Gao, Qing Li
cs.AI
要旨
複数の基盤モデル(大規模言語モデルと視覚言語モデル)を新たな統一メモリ機構と統合することで、特に長時間のビデオにおける長期的な時間的関係を捉えるという困難なビデオ理解問題にどのように取り組むかを探求します。具体的に提案するマルチモーダルエージェント「VideoAgent」は、1) ビデオの一般的な時間的イベント記述とオブジェクト中心の追跡状態を保存する構造化メモリを構築し、2) 入力されたタスククエリに対して、ビデオセグメントの位置特定やオブジェクトメモリのクエリなどのツールを活用し、他の視覚基盤モデルと連携してインタラクティブにタスクを解決します。これにより、大規模言語モデルのゼロショットツール使用能力を活用します。VideoAgentは、複数の長期ビデオ理解ベンチマークで印象的な性能を示し、NExT-QAでは平均6.6%、EgoSchemaでは26.0%のベースラインを上回り、オープンソースモデルとGemini 1.5 Proなどのプライベートモデルとのギャップを縮めています。
English
We explore how reconciling several foundation models (large language models
and vision-language models) with a novel unified memory mechanism could tackle
the challenging video understanding problem, especially capturing the long-term
temporal relations in lengthy videos. In particular, the proposed multimodal
agent VideoAgent: 1) constructs a structured memory to store both the generic
temporal event descriptions and object-centric tracking states of the video; 2)
given an input task query, it employs tools including video segment
localization and object memory querying along with other visual foundation
models to interactively solve the task, utilizing the zero-shot tool-use
ability of LLMs. VideoAgent demonstrates impressive performances on several
long-horizon video understanding benchmarks, an average increase of 6.6% on
NExT-QA and 26.0% on EgoSchema over baselines, closing the gap between
open-sourced models and private counterparts including Gemini 1.5 Pro.Summary
AI-Generated Summary