OmniAgent: Agente di Percezione Attiva Guidata dall'Audio per la Comprensione Omnimodale Audio-Video
OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding
December 29, 2025
Autori: Keda Tao, Wenjie Du, Bohan Yu, Weiqiang Wang, Jian Liu, Huan Wang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni onnimodali hanno compiuto progressi significativi nell'unificazione delle modalità audio e visive; tuttavia, spesso mancano di una comprensione cross-modale granulare e presentano difficoltà con l'allineamento multimodale. Per affrontare queste limitazioni, introduciamo OmniAgent, un agente di percezione attiva completamente guidato dall'audio che orchestra dinamicamente strumenti specializzati per ottenere un ragionamento audio-visivo più granulare. A differenza dei lavori precedenti che si basano su flussi di lavoro rigidi e statici e su descrizioni dense di fotogrammi, questo articolo dimostra un cambio di paradigma dalla generazione passiva di risposte all'indagine multimodale attiva. OmniAgent impiega una pianificazione dinamica per orchestrare autonomamente l'invocazione di strumenti on-demand, concentrando strategicamente l'attenzione percettiva sugli indizi rilevanti per il compito. Elemento centrale del nostro approccio è un nuovo paradigma di percezione guidata dall'audio di tipo coarse-to-fine, che sfrutta i segnali audio per localizzare eventi temporali e guidare il ragionamento successivo. Valutazioni empiriche estese su tre benchmark di comprensione audio-video dimostrano che OmniAgent raggiunge prestazioni all'avanguardia, superando modelli proprietari e open-source leader con margini sostanziali del 10% - 20% in accuratezza.
English
Omnimodal large language models have made significant strides in unifying audio and visual modalities; however, they often lack the fine-grained cross-modal understanding and have difficulty with multimodal alignment. To address these limitations, we introduce OmniAgent, a fully audio-guided active perception agent that dynamically orchestrates specialized tools to achieve more fine-grained audio-visual reasoning. Unlike previous works that rely on rigid, static workflows and dense frame-captioning, this paper demonstrates a paradigm shift from passive response generation to active multimodal inquiry. OmniAgent employs dynamic planning to autonomously orchestrate tool invocation on demand, strategically concentrating perceptual attention on task-relevant cues. Central to our approach is a novel coarse-to-fine audio-guided perception paradigm, which leverages audio cues to localize temporal events and guide subsequent reasoning. Extensive empirical evaluations on three audio-video understanding benchmarks demonstrate that OmniAgent achieves state-of-the-art performance, surpassing leading open-source and proprietary models by substantial margins of 10% - 20% accuracy.