OmniAgent: Ein audiogeführter Agent für aktive Wahrnehmung zum omni-modalen Audio-Video-Verständnis
OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding
December 29, 2025
papers.authors: Keda Tao, Wenjie Du, Bohan Yu, Weiqiang Wang, Jian Liu, Huan Wang
cs.AI
papers.abstract
Omnimodale große Sprachmodelle haben bedeutende Fortschritte bei der Vereinheitlichung audio-visueller Modalitäten erzielt; jedoch fehlt es ihnen oft an feinkörnigem cross-modalem Verständnis und sie haben Schwierigkeiten mit multimodaler Ausrichtung. Um diese Einschränkungen zu adressieren, stellen wir OmniAgent vor, einen vollständig audio-gesteuerten aktiven Wahrnehmungsagenten, der spezialisierte Werkzeuge dynamisch orchestriert, um eine feinkörnigere audio-visuelle Reasoning zu erreichen. Im Gegensatz zu früheren Arbeiten, die auf starren, statischen Arbeitsabläufen und dichten Frame-Beschriftungen basieren, demonstriert dieses Papier einen Paradigmenwechsel von der passiven Antwortgenerierung zur aktiven multimodalen Untersuchung. OmniAgent setzt dynamische Planung ein, um Tool-Aufrufe bedarfsgesteuert autonom zu orchestrieren und die Wahrnehmungsaufmerksamkeit strategisch auf aufgabenrelevante Hinweise zu konzentrieren. Zentrale Elemente unseres Ansatzes sind ein neuartiges Grob-zu-Fein-Audio-gesteuertes Wahrnehmungsparadigma, das Audio-Hinweise nutzt, um zeitliche Ereignisse zu lokalisieren und nachfolgendes Reasoning zu steuern. Umfangreiche empirische Evaluationen auf drei Audio-Video-Verständnis-Benchmarks zeigen, dass OmniAgent state-of-the-art Leistung erzielt und führende Open-Source- sowie proprietäre Modelle mit deutlichen Abständen von 10 % bis 20 % Genauigkeit übertrifft.
English
Omnimodal large language models have made significant strides in unifying audio and visual modalities; however, they often lack the fine-grained cross-modal understanding and have difficulty with multimodal alignment. To address these limitations, we introduce OmniAgent, a fully audio-guided active perception agent that dynamically orchestrates specialized tools to achieve more fine-grained audio-visual reasoning. Unlike previous works that rely on rigid, static workflows and dense frame-captioning, this paper demonstrates a paradigm shift from passive response generation to active multimodal inquiry. OmniAgent employs dynamic planning to autonomously orchestrate tool invocation on demand, strategically concentrating perceptual attention on task-relevant cues. Central to our approach is a novel coarse-to-fine audio-guided perception paradigm, which leverages audio cues to localize temporal events and guide subsequent reasoning. Extensive empirical evaluations on three audio-video understanding benchmarks demonstrate that OmniAgent achieves state-of-the-art performance, surpassing leading open-source and proprietary models by substantial margins of 10% - 20% accuracy.