ChatPaper.aiChatPaper

Actieve Videowaarneming: Iteratief Zoeken naar Bewijs voor Agentisch Lang Videobegrip

Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding

December 5, 2025
Auteurs: Ziyang Wang, Honglu Zhou, Shijie Wang, Junnan Li, Caiming Xiong, Silvio Savarese, Mohit Bansal, Michael S. Ryoo, Juan Carlos Niebles
cs.AI

Samenvatting

Langdurige videobegrip (LVU) is uitdagend omdat het beantwoorden van realistische vragen vaak afhangt van schaarse, tijdelijk verspreide aanwijzingen die verborgen zijn in uren grotendeels redundante en irrelevante content. Hoewel agent-gebaseerde pijplijnen de videoredeneercapaciteit verbeteren, vertrouwen gangbare frameworks op een query-agnostische beschrijvingsmodule om video-informatie waar te nemen, wat rekenkracht verspilt aan irrelevante content en fijnmazige temporele en ruimtelijke informatie vervaagt. Gemotiveerd door de actieve perceptietheorie stellen wij dat LVU-agenten actief moeten beslissen wát, wannéér en wáár ze moeten observeren, en continu moeten beoordelen of de huidige observatie voldoende is om de vraag te beantwoorden. Wij presenteren Active Video Perception (AVP), een evidence-seeking framework dat de video als een interactieve omgeving behandelt en compacte, query-relevante informatie direct uit de pixels verkrijgt. Concreet voert AVP een iteratief plan-observeer-reflecteer proces uit met MLLM-agenten. In elke ronde stelt een planner gerichte video-interacties voor, een observator voert deze uit om tijdgestempeld bewijsmateriaal te extraheren, en een reflectator evalueert de toereikendheid van het bewijsmateriaal voor de vraag, waarmee hij ofwel stopt met een antwoord of verdere observatie in gang zet. Op vijf LVU-referentietests behaalt AVP de hoogste prestaties met significante verbeteringen. Opmerkelijk is dat AVP de beste agent-gebaseerde methode met 5,7% gemiddelde nauwkeurigheid overtreft, terwijl het slechts 18,4% inferentietijd en 12,4% input-tokens vereist.
English
Long video understanding (LVU) is challenging because answering real-world queries often depends on sparse, temporally dispersed cues buried in hours of mostly redundant and irrelevant content. While agentic pipelines improve video reasoning capabilities, prevailing frameworks rely on a query-agnostic captioner to perceive video information, which wastes computation on irrelevant content and blurs fine-grained temporal and spatial information. Motivated by active perception theory, we argue that LVU agents should actively decide what, when, and where to observe, and continuously assess whether the current observation is sufficient to answer the query. We present Active Video Perception (AVP), an evidence-seeking framework that treats the video as an interactive environment and acquires compact, queryrelevant evidence directly from pixels. Concretely, AVP runs an iterative plan-observe-reflect process with MLLM agents. In each round, a planner proposes targeted video interactions, an observer executes them to extract time-stamped evidence, and a reflector evaluates the sufficiency of the evidence for the query, either halting with an answer or triggering further observation. Across five LVU benchmarks, AVP achieves highest performance with significant improvements. Notably, AVP outperforms the best agentic method by 5.7% in average accuracy while only requires 18.4% inference time and 12.4% input tokens.
PDF52December 9, 2025