ChatPaper.aiChatPaper

エージェンシック超長尺動画理解

Agentic Very Long Video Understanding

January 26, 2026
著者: Aniket Rege, Arka Sadhu, Yuliang Li, Kejie Li, Ramya Korlakai Vinayak, Yuning Chai, Yong Jae Lee, Hyo Jin Kim
cs.AI

要旨

スマートグラスなどの終日着用可能なウェアラブルデバイスによって実現される「常時オン」の個人AIアシスタントの出現は、短い孤立した事象を超え、継続的で長期的な一人称視点ビデオのストリームを包括する、新たなレベルの文脈理解を要求する。このビジョンを実現するには、数日あるいは数週間にわたる視覚・聴覚情報を解釈し記憶する必要がある長期ビデオ理解の進展が不可欠である。大規模言語モデルや検索拡張生成を含む既存手法は、限られたコンテキストウィンドウに制約され、非常に長いビデオストリームに対する合成的でマルチホップ的な推論を行う能力を欠いている。本研究では、人物、場所、物体、およびそれらの時間的関係を表現するエンティティシーングラフを中核とした拡張エージェントフレームワークであるEGAgentを通じてこれらの課題に取り組む。本システムは、計画エージェントにこれらのグラフに対する構造化された検索・推論ツール、およびハイブリッドな視覚・音声検索機能を装備し、詳細かつクロスモーダルで時間的一貫性のある推論を可能にする。EgoLifeQAおよびVideo-MME (Long) データセットを用いた実験により、本手法が複雑な長期ビデオ理解タスクにおいて、EgoLifeQAで57.5%、Video-MME (Long) で74.1%という競争力のある性能を達成することを示す。
English
The advent of always-on personal AI assistants, enabled by all-day wearable devices such as smart glasses, demands a new level of contextual understanding, one that goes beyond short, isolated events to encompass the continuous, longitudinal stream of egocentric video. Achieving this vision requires advances in long-horizon video understanding, where systems must interpret and recall visual and audio information spanning days or even weeks. Existing methods, including large language models and retrieval-augmented generation, are constrained by limited context windows and lack the ability to perform compositional, multi-hop reasoning over very long video streams. In this work, we address these challenges through EGAgent, an enhanced agentic framework centered on entity scene graphs, which represent people, places, objects, and their relationships over time. Our system equips a planning agent with tools for structured search and reasoning over these graphs, as well as hybrid visual and audio search capabilities, enabling detailed, cross-modal, and temporally coherent reasoning. Experiments on the EgoLifeQA and Video-MME (Long) datasets show that our method achieves state-of-the-art performance on EgoLifeQA (57.5%) and competitive performance on Video-MME (Long) (74.1%) for complex longitudinal video understanding tasks.
PDF61January 28, 2026