ChatPaper.aiChatPaper

Percezione Attiva dei Video: Ricerca Iterativa di Prove per la Comprensione Agente di Video Lunghi

Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding

December 5, 2025
Autori: Ziyang Wang, Honglu Zhou, Shijie Wang, Junnan Li, Caiming Xiong, Silvio Savarese, Mohit Bansal, Michael S. Ryoo, Juan Carlos Niebles
cs.AI

Abstract

La comprensione di video lunghi (LVU) è impegnativa poiché rispondere a query del mondo reale spesso dipende da indizi sparsi e temporalmente dispersi, sepolti in ore di contenuto per lo più ridondante e irrilevante. Sebbene le pipeline agent-based migliorino le capacità di ragionamento video, i framework prevalenti si affidano a sistemi di descrizione video agnostici rispetto alla query per percepire le informazioni, sprecando risorse computazionali su contenuti irrilevanti e sfocando dettagli temporali e spaziali fini. Ispirati dalla teoria della percezione attiva, sosteniamo che gli agenti LVU dovrebbero decidere attivamente cosa, quando e dove osservare, valutando continuamente se l'osservazione corrente sia sufficiente a rispondere alla query. Presentiamo Active Video Perception (AVP), un framework di ricerca evidenziale che tratta il video come un ambiente interattivo e acquisisce evidenze compatte e pertinenti alla query direttamente dai pixel. Nello specifico, AVP esegue un processo iterativo di pianificazione-osservazione-riflessione con agenti MLLM. In ogni ciclo, un pianificatore propone interazioni video mirate, un osservatore le esegue per estrarre evidenze temporizzate, e un riflettore valuta la sufficienza delle evidenze per la query, fermandosi con una risposta o attivando ulteriori osservazioni. Su cinque benchmark LVU, AVP raggiunge le massime prestazioni con miglioramenti significativi. In particolare, supera il miglior metodo agent-based del 5.7% in accuratezza media, richiedendo solo il 18.4% del tempo di inferenza e il 12.4% dei token di input.
English
Long video understanding (LVU) is challenging because answering real-world queries often depends on sparse, temporally dispersed cues buried in hours of mostly redundant and irrelevant content. While agentic pipelines improve video reasoning capabilities, prevailing frameworks rely on a query-agnostic captioner to perceive video information, which wastes computation on irrelevant content and blurs fine-grained temporal and spatial information. Motivated by active perception theory, we argue that LVU agents should actively decide what, when, and where to observe, and continuously assess whether the current observation is sufficient to answer the query. We present Active Video Perception (AVP), an evidence-seeking framework that treats the video as an interactive environment and acquires compact, queryrelevant evidence directly from pixels. Concretely, AVP runs an iterative plan-observe-reflect process with MLLM agents. In each round, a planner proposes targeted video interactions, an observer executes them to extract time-stamped evidence, and a reflector evaluates the sufficiency of the evidence for the query, either halting with an answer or triggering further observation. Across five LVU benchmarks, AVP achieves highest performance with significant improvements. Notably, AVP outperforms the best agentic method by 5.7% in average accuracy while only requires 18.4% inference time and 12.4% input tokens.
PDF52December 9, 2025