ChatPaper.aiChatPaper

OmniAgent: Audiogestuurd actief waarnemingssysteem voor omnimodale audio-video-interpretatie

OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding

December 29, 2025
Auteurs: Keda Tao, Wenjie Du, Bohan Yu, Weiqiang Wang, Jian Liu, Huan Wang
cs.AI

Samenvatting

Omnimodale grote taalmodellen hebben aanzienlijke vooruitgang geboekt in het verenigen van audio- en visuele modaliteiten; ze missen echter vaak een fijnmazig cross-modale begrip en hebben moeite met multimodale afstemming. Om deze beperkingen aan te pakken, introduceren we OmniAgent, een volledig audio-gestuurd actief perceptie-agent dat gespecialiseerde tools dynamisch orkestreert om een fijnmazigere audio-visuele redenering te bereiken. In tegenstelling tot eerdere werken die vertrouwen op rigide, statische workflows en dichte frame-beschrijving, demonstreert dit artikel een paradigmaverschuiving van passieve responsgeneratie naar actieve multimodale verkenning. OmniAgent gebruikt dynamische planning om autonoom tool-aanroepingen op aanvraag te orkestreren en strategisch de perceptuele aandacht op taakrelevante signalen te concentreren. Centraal in onze aanpak staat een nieuwe grof-naar-fijn audio-gestuurd perceptieparadigma, dat audio-aanwijzingen benut om temporele gebeurtenissen te lokaliseren en het daaropvolgende redeneerproces te sturen. Uitgebreide empirische evaluaties op drie audio-video begripsbenchmarks tonen aan dat OmniAgent state-of-the-art prestaties bereikt, en toonaangevende open-source en propriëtaire modellen met aanzienlijke marges van 10% - 20% nauwkeurigheid overtreft.
English
Omnimodal large language models have made significant strides in unifying audio and visual modalities; however, they often lack the fine-grained cross-modal understanding and have difficulty with multimodal alignment. To address these limitations, we introduce OmniAgent, a fully audio-guided active perception agent that dynamically orchestrates specialized tools to achieve more fine-grained audio-visual reasoning. Unlike previous works that rely on rigid, static workflows and dense frame-captioning, this paper demonstrates a paradigm shift from passive response generation to active multimodal inquiry. OmniAgent employs dynamic planning to autonomously orchestrate tool invocation on demand, strategically concentrating perceptual attention on task-relevant cues. Central to our approach is a novel coarse-to-fine audio-guided perception paradigm, which leverages audio cues to localize temporal events and guide subsequent reasoning. Extensive empirical evaluations on three audio-video understanding benchmarks demonstrate that OmniAgent achieves state-of-the-art performance, surpassing leading open-source and proprietary models by substantial margins of 10% - 20% accuracy.
PDF81December 31, 2025