Perception Active Native comme Raisonnement pour la Compréhension Omni-Modale

Résumé

Les modèles passifs pour la compréhension de longues vidéos reposent généralement sur un paradigme « regarder-tout », traitant les images de manière uniforme indépendamment de la difficulté de la requête, ce qui entraîne une augmentation du coût de calcul avec la durée de la vidéo. Bien que des cadres interactifs aient émergé, ils reposent souvent sur un pré-balayage global, et leur coût de contexte reste proportionnel à la longueur de la vidéo. Nous proposons OmniAgent, le premier agent omni-modal natif qui formule la compréhension vidéo comme un cycle itératif Observation-Pensée-Action basé sur POMDP. OmniAgent exécute des actions à la demande pour distiller sélectivement les indices audio-visuels dans une mémoire textuelle persistante, découplant ainsi efficacement la complexité du raisonnement de la durée brute de la vidéo. Pour opérationnaliser cela, nous introduisons (1) le Fine-Tuning Supervisé Agentique (Agentic Supervised Fine-Tuning) pour amorcer la perception active native via une synthèse de trajectoires best-of-N avec un contrôle qualité en deux étapes, et (2) l’Apprentissage par Renforcement Agentique (Agentic Reinforcement Learning) avec TAURA (Turn-aware Adaptive Uncertainty Rescaled Advantage), qui exploite l’entropie au niveau des tours pour orienter l’attribution des crédits vers les tours de découverte cruciaux. Crucialement, OmniAgent présente un passage à l’échelle positif au moment du test, où la performance s’améliore à mesure que le nombre de tours de raisonnement augmente, validant ainsi l’efficacité de la perception active. Les résultats empiriques sur dix benchmarks (par exemple, VideoMME, LVBench) démontrent qu’OmniAgent atteint des performances de pointe parmi les modèles open-source. Notamment, sur LVBench, notre agent 7B surpasse le modèle Qwen2.5-VL-72B, dix fois plus grand (50,5 % contre 47,3 %).

English

Passive models for long video understanding typically rely on a "watch-it-all" paradigm, processing frames uniformly regardless of query difficulty, causing computational cost to grow with video duration. Although interactive frameworks have emerged, they often rely on global pre-scanning, and their context cost still scales with video length. We propose OmniAgent, the first native omni-modal agent that formulates video understanding as a POMDP-based iterative Observation-Thought-Action cycle. OmniAgent executes on-demand actions to selectively distill audio-visual cues into a persistent textual memory, effectively decoupling reasoning complexity from raw video duration. To operationalize this, we introduce (1) Agentic Supervised Fine-Tuning to bootstrap native active perception via best-of-N trajectory synthesis with dual-stage quality control, and (2) Agentic Reinforcement Learning with TAURA (Turn-aware Adaptive Uncertainty Rescaled Advantage), which leverages turn-level entropy to steer credit assignment toward pivotal discovery turns. Crucially, OmniAgent exhibits positive test-time scaling, where performance improves as the number of reasoning turns increases, validating the efficacy of active perception. Empirical results across ten benchmarks (e.g., VideoMME, LVBench) demonstrate that OmniAgent achieves state-of-the-art performance among open-source models. Notably, on LVBench, our 7B agent outperforms the 10times larger Qwen2.5-VL-72B (50.5% vs. 47.3%).