ChatPaper.aiChatPaper

能動的映像知覚:エージェンシックな長尺映像理解のための反復的証拠探索

Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding

December 5, 2025
著者: Ziyang Wang, Honglu Zhou, Shijie Wang, Junnan Li, Caiming Xiong, Silvio Savarese, Mohit Bansal, Michael S. Ryoo, Juan Carlos Niebles
cs.AI

要旨

長時間動画理解(LVU)は、現実世界のクエリに答える際に、冗長で無関係なコンテンツが大半を占める数時間の動画の中に散在する、まばらで時間的に分散した手がかりに依存することが多いため、困難な課題である。エージェント型パイプラインは動画推論能力を向上させるが、既存のフレームワークはクエリに依存しないキャプショナーを用いて動画情報を認識しており、無関係なコンテンツに計算リソースを浪費し、細かな時間的・空間的情報を曖昧にしてしまう。能動的知覚理論に基づき、我々はLVUエージェントが「何を・いつ・どこを」観察するかを能動的に決定し、現在の観測がクエリに答えるのに十分かどうかを継続的に評価すべきだと主張する。本論文では、動画を対話型環境として扱い、画素から直接的にコンパクトでクエリ関連性の高い証拠を取得する証拠探索フレームワーク「能動的動画知覚(AVP)」を提案する。具体的には、AVPはMLLMエージェントを用いた反復的な計画‐観測‐内省プロセスを実行する。各ラウンドでは、プランナーが対象を絞った動画操作を提案し、オブザーバーがそれを実行して時間印付きの証拠を抽出し、リフレクターが証拠の十分性を評価し、回答で終了するかさらなる観測をトリガーする。5つのLVUベンチマークにおいて、AVPは大幅な改善で最高性能を達成した。特筆すべきは、AVPが最高性能のエージェント手法を平均精度で5.7%上回りながら、推論時間は18.4%、入力トークン数は12.4%しか必要としなかった点である。
English
Long video understanding (LVU) is challenging because answering real-world queries often depends on sparse, temporally dispersed cues buried in hours of mostly redundant and irrelevant content. While agentic pipelines improve video reasoning capabilities, prevailing frameworks rely on a query-agnostic captioner to perceive video information, which wastes computation on irrelevant content and blurs fine-grained temporal and spatial information. Motivated by active perception theory, we argue that LVU agents should actively decide what, when, and where to observe, and continuously assess whether the current observation is sufficient to answer the query. We present Active Video Perception (AVP), an evidence-seeking framework that treats the video as an interactive environment and acquires compact, queryrelevant evidence directly from pixels. Concretely, AVP runs an iterative plan-observe-reflect process with MLLM agents. In each round, a planner proposes targeted video interactions, an observer executes them to extract time-stamped evidence, and a reflector evaluates the sufficiency of the evidence for the query, either halting with an answer or triggering further observation. Across five LVU benchmarks, AVP achieves highest performance with significant improvements. Notably, AVP outperforms the best agentic method by 5.7% in average accuracy while only requires 18.4% inference time and 12.4% input tokens.
PDF52December 9, 2025