Native aktive Wahrnehmung als Reasoning für omni-modales Verstehen

Zusammenfassung

Passive Modelle für das Verständnis langer Videos stützen sich typischerweise auf ein "schau-alles"-Paradigma, bei dem Frames unabhängig von der Schwierigkeit der Abfrage einheitlich verarbeitet werden, was dazu führt, dass der Rechenaufwand mit der Videodauer wächst. Obwohl interaktive Frameworks entstanden sind, stützen sie sich oft auf ein globales Vortasten, und ihr Kontextaufwand skaliert weiterhin mit der Videolänge. Wir stellen OmniAgent vor, den ersten nativen omnimodalen Agenten, der das Verständnis von Videos als einen auf POMDP basierenden iterativen Beobachtungs-Denk-Handlungs-Zyklus formuliert. OmniAgent führt bedarfsgesteuerte Aktionen aus, um audiovisuelle Hinweise selektiv in einen persistenten textuellen Speicher zu destillieren, wodurch die Komplexität des Denkens effektiv von der Rohvideodauer entkoppelt wird. Zur praktischen Umsetzung führen wir (1) Agentic Supervised Fine-Tuning ein, um die native aktive Wahrnehmung durch Best-of-N-Trajektoriensynthese mit zweistufiger Qualitätskontrolle zu bootstrappen, und (2) Agentic Reinforcement Learning mit TAURA (Turn-aware Adaptive Uncertainty Rescaled Advantage), das die Entropie auf Zug-Ebene nutzt, um die Kreditzuweisung auf entscheidende Entdeckungszüge zu lenken. Entscheidend ist, dass OmniAgent ein positives Testzeitskalierungsverhalten zeigt, bei dem die Leistung mit zunehmender Anzahl von Denkschritten verbessert wird, was die Wirksamkeit der aktiven Wahrnehmung bestätigt. Empirische Ergebnisse über zehn Benchmarks (z. B. VideoMME, LVBench) zeigen, dass OmniAgent eine Spitzenleistung unter den Open-Source-Modellen erzielt. Insbesondere übertrifft unser 7B-Agent auf LVBench den 10-mal größeren Qwen2.5-VL-72B (50,5 % gegenüber 47,3 %).

English

Passive models for long video understanding typically rely on a "watch-it-all" paradigm, processing frames uniformly regardless of query difficulty, causing computational cost to grow with video duration. Although interactive frameworks have emerged, they often rely on global pre-scanning, and their context cost still scales with video length. We propose OmniAgent, the first native omni-modal agent that formulates video understanding as a POMDP-based iterative Observation-Thought-Action cycle. OmniAgent executes on-demand actions to selectively distill audio-visual cues into a persistent textual memory, effectively decoupling reasoning complexity from raw video duration. To operationalize this, we introduce (1) Agentic Supervised Fine-Tuning to bootstrap native active perception via best-of-N trajectory synthesis with dual-stage quality control, and (2) Agentic Reinforcement Learning with TAURA (Turn-aware Adaptive Uncertainty Rescaled Advantage), which leverages turn-level entropy to steer credit assignment toward pivotal discovery turns. Crucially, OmniAgent exhibits positive test-time scaling, where performance improves as the number of reasoning turns increases, validating the efficacy of active perception. Empirical results across ten benchmarks (e.g., VideoMME, LVBench) demonstrate that OmniAgent achieves state-of-the-art performance among open-source models. Notably, on LVBench, our 7B agent outperforms the 10times larger Qwen2.5-VL-72B (50.5% vs. 47.3%).