ChatPaper.aiChatPaper

Perception Vidéo Active : Recherche Itérative de Preuves pour la Compréhension Agentique des Longues Vidéos

Active Video Perception: Iterative Evidence Seeking for Agentic Long Video Understanding

December 5, 2025
papers.authors: Ziyang Wang, Honglu Zhou, Shijie Wang, Junnan Li, Caiming Xiong, Silvio Savarese, Mohit Bansal, Michael S. Ryoo, Juan Carlos Niebles
cs.AI

papers.abstract

La compréhension de vidéos longues (LVU) est un défi car répondre à des requêtes du monde réel dépend souvent d'indices épars et temporellement dispersés, enfouis dans des heures de contenu majoritairement redondant et non pertinent. Bien que les pipelines agentiques améliorent les capacités de raisonnement vidéo, les frameworks dominants s'appuient sur un système de description aveugle à la requête pour percevoir l'information vidéo, ce qui gaspille des ressources de calcul sur du contenu non pertinent et estompe les informations temporelles et spatiales fines. Motivés par la théorie de la perception active, nous soutenons que les agents LVU devraient activement décider quoi, quand et où observer, et évaluer continuellement si l'observation courante est suffisante pour répondre à la requête. Nous présentons la Perception Vidéo Active (AVP), un cadre de recherche de preuves qui traite la vidéo comme un environnement interactif et acquiert des preuves compactes et pertinentes pour la requête directement depuis les pixels. Concrètement, AVP exécute un processus itératif planifier-observer-réfléchir avec des agents MLLM. À chaque cycle, un planificateur propose des interactions vidéo ciblées, un observateur les exécute pour extraire des preuves horodatées, et un réflecteur évalue la suffisance des preuves pour la requête, soit en s'arrêtant avec une réponse, soit en déclenchant une observation supplémentaire. Sur cinq benchmarks LVU, AVP obtient les meilleures performances avec des améliorations significatives. Notamment, AVP surpasse la meilleure méthode agentique de 5,7 % en précision moyenne tout en ne nécessitant que 18,4 % du temps d'inférence et 12,4 % des jetons d'entrée.
English
Long video understanding (LVU) is challenging because answering real-world queries often depends on sparse, temporally dispersed cues buried in hours of mostly redundant and irrelevant content. While agentic pipelines improve video reasoning capabilities, prevailing frameworks rely on a query-agnostic captioner to perceive video information, which wastes computation on irrelevant content and blurs fine-grained temporal and spatial information. Motivated by active perception theory, we argue that LVU agents should actively decide what, when, and where to observe, and continuously assess whether the current observation is sufficient to answer the query. We present Active Video Perception (AVP), an evidence-seeking framework that treats the video as an interactive environment and acquires compact, queryrelevant evidence directly from pixels. Concretely, AVP runs an iterative plan-observe-reflect process with MLLM agents. In each round, a planner proposes targeted video interactions, an observer executes them to extract time-stamped evidence, and a reflector evaluates the sufficiency of the evidence for the query, either halting with an answer or triggering further observation. Across five LVU benchmarks, AVP achieves highest performance with significant improvements. Notably, AVP outperforms the best agentic method by 5.7% in average accuracy while only requires 18.4% inference time and 12.4% input tokens.
PDF52December 9, 2025