ChatPaper.aiChatPaper

OmniAgent : Agent de perception active guidé par l'audio pour la compréhension audio-vidéo omnimodale

OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding

December 29, 2025
papers.authors: Keda Tao, Wenjie Du, Bohan Yu, Weiqiang Wang, Jian Liu, Huan Wang
cs.AI

papers.abstract

Les grands modèles linguistiques omnimodaux ont réalisé des progrès significatifs dans l'unification des modalités audio et visuelles ; cependant, ils manquent souvent de compréhension fine intermodale et éprouvent des difficultés avec l'alignement multimodal. Pour résoudre ces limitations, nous présentons OmniAgent, un agent de perception active entièrement guidé par l'audio qui orchestre dynamiquement des outils spécialisés pour obtenir un raisonnement audio-visuel plus granulaire. Contrairement aux travaux antérieurs qui reposent sur des flux de travail rigides et statiques avec un étiquetage dense d'images, cet article démontre un changement de paradigme passant d'une génération de réponses passive à une investigation multimodale active. OmniAgent utilise une planification dynamique pour orchestrer de manière autonome l'invocation d'outils à la demande, en concentrant stratégiquement l'attention perceptive sur les indices pertinents pour la tâche. Au cœur de notre approche se trouve un nouveau paradigme de perception guidée par l'audio allant du grossier au fin, qui exploite les indices audio pour localiser les événements temporels et orienter le raisonnement ultérieur. Des évaluations empiriques approfondies sur trois benchmarks de compréhension audio-vidéo démontrent qu'OmniAgent atteint des performances à la pointe de l'état de l'art, surpassant les principaux modèles open-source et propriétaires par des marges substantielles de 10% à 20% en précision.
English
Omnimodal large language models have made significant strides in unifying audio and visual modalities; however, they often lack the fine-grained cross-modal understanding and have difficulty with multimodal alignment. To address these limitations, we introduce OmniAgent, a fully audio-guided active perception agent that dynamically orchestrates specialized tools to achieve more fine-grained audio-visual reasoning. Unlike previous works that rely on rigid, static workflows and dense frame-captioning, this paper demonstrates a paradigm shift from passive response generation to active multimodal inquiry. OmniAgent employs dynamic planning to autonomously orchestrate tool invocation on demand, strategically concentrating perceptual attention on task-relevant cues. Central to our approach is a novel coarse-to-fine audio-guided perception paradigm, which leverages audio cues to localize temporal events and guide subsequent reasoning. Extensive empirical evaluations on three audio-video understanding benchmarks demonstrate that OmniAgent achieves state-of-the-art performance, surpassing leading open-source and proprietary models by substantial margins of 10% - 20% accuracy.
PDF81December 31, 2025