ChatPaper.aiChatPaper

능동적 영상 인식: 장기 영상 이해를 위한 에이전트 기반 반복적 증거 탐색

Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding

December 5, 2025
저자: Ziyang Wang, Honglu Zhou, Shijie Wang, Junnan Li, Caiming Xiong, Silvio Savarese, Mohit Bansal, Michael S. Ryoo, Juan Carlos Niebles
cs.AI

초록

장영상 이해(LVU)는 실제 세계의 질의에 답변하는 데 수시간 분량의 대부분 중복되고 관련 없는 콘텐츠 속에 흩어져 있는 희소하고 시간적으로 분산된 단서들에 의존해야 하기 때문에 어려운 과제입니다. 에이전트 기반 파이프라인이 비디오 추론 능력을 향상시키지만, 기존 프레임워크는 비디오 정보를 인지하기 위해 질의와 무관한 캡션 생성기에 의존하여 관련 없는 콘텐츠에 계산 자원을 낭비하고 세밀한 시간적·공간적 정보를 흐리게 만듭니다. 능동적 지각 이론에 기반하여, 우리는 LVU 에이전트가 무엇을, 언제, 어디를 관찰할지 능동적으로 결정하고 현재 관찰이 질의에 답변하기에 충분한지 지속적으로 평가해야 한다고 주장합니다. 우리는 비디오를 상호작용 가능한 환경으로 간주하고 픽셀에서 직접 질의 관련 증거를 간결하게 획득하는 증거 탐색 프레임워크인 능동적 비디오 지각(AVP)을 제시합니다. 구체적으로 AVP는 MLLM 에이전트를 활용한 반복적인 계획-관찰-성찰 과정을 실행합니다. 각 라운드에서 계획자는 표적 비디오 상호작용을 제안하고, 관찰자는 이를 실행하여 타임스탬프가 부착된 증거를 추출하며, 성찰자는 증거의 충분성을 평가하여 답변과 함께 중단하거나 추가 관찰을 트리거합니다. 5개의 LVU 벤치마크에서 AVP는 가장 높은 성능을 달성하며 상당한 향상을 보였습니다. 특히 AVP는 최고의 에이전트 기반 방법보다 평균 정확도에서 5.7% 우수한 성능을 보이면서도 추론 시간의 18.4%, 입력 토큰의 12.4%만을 요구합니다.
English
Long video understanding (LVU) is challenging because answering real-world queries often depends on sparse, temporally dispersed cues buried in hours of mostly redundant and irrelevant content. While agentic pipelines improve video reasoning capabilities, prevailing frameworks rely on a query-agnostic captioner to perceive video information, which wastes computation on irrelevant content and blurs fine-grained temporal and spatial information. Motivated by active perception theory, we argue that LVU agents should actively decide what, when, and where to observe, and continuously assess whether the current observation is sufficient to answer the query. We present Active Video Perception (AVP), an evidence-seeking framework that treats the video as an interactive environment and acquires compact, queryrelevant evidence directly from pixels. Concretely, AVP runs an iterative plan-observe-reflect process with MLLM agents. In each round, a planner proposes targeted video interactions, an observer executes them to extract time-stamped evidence, and a reflector evaluates the sufficiency of the evidence for the query, either halting with an answer or triggering further observation. Across five LVU benchmarks, AVP achieves highest performance with significant improvements. Notably, AVP outperforms the best agentic method by 5.7% in average accuracy while only requires 18.4% inference time and 12.4% input tokens.
PDF52December 9, 2025