OmniAgent: Agente de Percepção Ativa Guiada por Áudio para Compreensão Omnimodal de Áudio e Vídeo
OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding
December 29, 2025
Autores: Keda Tao, Wenjie Du, Bohan Yu, Weiqiang Wang, Jian Liu, Huan Wang
cs.AI
Resumo
Os grandes modelos de linguagem omnimodais deram passos significativos na unificação das modalidades áudio e visual; no entanto, frequentemente carecem de compreensão transversal refinada e têm dificuldade com o alinhamento multimodal. Para enfrentar estas limitações, introduzimos o OmniAgent, um agente de perceção ativa totalmente guiado por áudio que orquestra dinamicamente ferramentas especializadas para alcançar um raciocínio áudio-visual mais granular. Ao contrário de trabalhos anteriores que dependem de fluxos de trabalho rígidos e estáticos com legendagem densa de frames, este artigo demonstra uma mudança de paradigma da geração passiva de respostas para uma investigação multimodal ativa. O OmniAgent emprega um planeamento dinâmico para orquestrar autónomamente a invocação de ferramentas sob demanda, concentrando estrategicamente a atenção perceptual em pistas relevantes para a tarefa. Central à nossa abordagem é um novo paradigma de perceção guiada por áudio do tipo coarse-to-fine, que aproveita pistas de áudio para localizar eventos temporais e orientar o raciocínio subsequente. Avaliações empíricas abrangentes em três benchmarks de compreensão áudio-visual demonstram que o OmniAgent alcança um desempenho state-of-the-art, superando modelos líderes de código aberto e proprietários por margens substanciais de 10% a 20% em precisão.
English
Omnimodal large language models have made significant strides in unifying audio and visual modalities; however, they often lack the fine-grained cross-modal understanding and have difficulty with multimodal alignment. To address these limitations, we introduce OmniAgent, a fully audio-guided active perception agent that dynamically orchestrates specialized tools to achieve more fine-grained audio-visual reasoning. Unlike previous works that rely on rigid, static workflows and dense frame-captioning, this paper demonstrates a paradigm shift from passive response generation to active multimodal inquiry. OmniAgent employs dynamic planning to autonomously orchestrate tool invocation on demand, strategically concentrating perceptual attention on task-relevant cues. Central to our approach is a novel coarse-to-fine audio-guided perception paradigm, which leverages audio cues to localize temporal events and guide subsequent reasoning. Extensive empirical evaluations on three audio-video understanding benchmarks demonstrate that OmniAgent achieves state-of-the-art performance, surpassing leading open-source and proprietary models by substantial margins of 10% - 20% accuracy.