Natieve Actieve Perceptie als Redeneren voor Omni-modale Begrip

Samenvatting

Passieve modellen voor het begrijpen van lange video's vertrouwen doorgaans op een 'bekijk-alles'-paradigma, waarbij frames uniform worden verwerkt ongeacht de moeilijkheidsgraad van de query, waardoor de rekenkosten toenemen met de videoduur. Hoewel er interactieve raamwerken zijn ontstaan, vertrouwen ze vaak op globale voorafscannen, en hun contextkosten schalen nog steeds met de videolengte. Wij stellen OmniAgent voor, de eerste native omni-modale agent die videobegrip formuleert als een op POMDP gebaseerde iteratieve Observatie-Gedachte-Actie-cyclus. OmniAgent voert on-demand acties uit om selectief audio-visuele aanwijzingen te distilleren naar een persistent tekstueel geheugen, waardoor de redeneercomplexiteit effectief wordt ontkoppeld van de ruwe videoduur. Om dit te operationaliseren introduceren we (1) Agentic Supervised Fine-Tuning om native actieve perceptie te bootstrappen via best-of-N-trajectoriessynthese met tweefasige kwaliteitscontrole, en (2) Agentic Reinforcement Learning met TAURA (Turn-aware Adaptive Uncertainty Rescaled Advantage), dat gebruikmaakt van turn-level-entropie om krediettoewijzing te sturen naar cruciale ontdekkingsbeurten. Cruciaal is dat OmniAgent positieve test-tijdsschaling vertoont, waarbij de prestaties verbeteren naarmate het aantal redeneerbeurten toeneemt, wat de effectiviteit van actieve perceptie bevestigt. Empirische resultaten over tien benchmarks (bijv. VideoMME, LVBench) tonen aan dat OmniAgent state-of-the-art prestaties behaalt onder open-source modellen. Opmerkelijk is dat op LVBench onze 7B-agent beter presteert dan de 10 keer grotere Qwen2.5-VL-72B (50,5% vs. 47,3%).

English

Passive models for long video understanding typically rely on a "watch-it-all" paradigm, processing frames uniformly regardless of query difficulty, causing computational cost to grow with video duration. Although interactive frameworks have emerged, they often rely on global pre-scanning, and their context cost still scales with video length. We propose OmniAgent, the first native omni-modal agent that formulates video understanding as a POMDP-based iterative Observation-Thought-Action cycle. OmniAgent executes on-demand actions to selectively distill audio-visual cues into a persistent textual memory, effectively decoupling reasoning complexity from raw video duration. To operationalize this, we introduce (1) Agentic Supervised Fine-Tuning to bootstrap native active perception via best-of-N trajectory synthesis with dual-stage quality control, and (2) Agentic Reinforcement Learning with TAURA (Turn-aware Adaptive Uncertainty Rescaled Advantage), which leverages turn-level entropy to steer credit assignment toward pivotal discovery turns. Crucially, OmniAgent exhibits positive test-time scaling, where performance improves as the number of reasoning turns increases, validating the efficacy of active perception. Empirical results across ten benchmarks (e.g., VideoMME, LVBench) demonstrate that OmniAgent achieves state-of-the-art performance among open-source models. Notably, on LVBench, our 7B agent outperforms the 10times larger Qwen2.5-VL-72B (50.5% vs. 47.3%).