ChatPaper.aiChatPaper

OmniAgent: Agente de Percepción Activa Guiada por Audio para la Comprensión Omnimodal de Audio y Video

OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding

December 29, 2025
Autores: Keda Tao, Wenjie Du, Bohan Yu, Weiqiang Wang, Jian Liu, Huan Wang
cs.AI

Resumen

Los modelos lingüísticos grandes omnimodales han logrado avances significativos en la unificación de los modalidades auditivo y visual; sin embargo, a menudo carecen de una comprensión multimodal detallada y presentan dificultades con la alineación multimodal. Para abordar estas limitaciones, presentamos OmniAgent, un agente de percepción activa completamente guiado por audio que orquesta dinámicamente herramientas especializadas para lograr un razonamiento audiovisual más granular. A diferencia de trabajos anteriores que dependen de flujos de trabajo estáticos y rígidos con descripción densa de fotogramas, este artículo demuestra un cambio de paradigma, pasando de la generación pasiva de respuestas al interrogatorio multimodal activo. OmniAgent emplea una planificación dinámica para orquestar de forma autónoma la invocación de herramientas bajo demanda, concentrando estratégicamente la atención perceptual en las claves relevantes para la tarea. Es central en nuestro enfoque un novedoso paradigma de percepción guiada por audio de grueso a fino, que aprovecha las pistas auditivas para localizar eventos temporales y guiar el razonamiento subsiguiente. Evaluaciones empíricas exhaustivas en tres benchmarks de comprensión audio-video demuestran que OmniAgent alcanza un rendimiento de vanguardia, superando a los principales modelos de código abierto y propietarios por márgenes sustanciales del 10% al 20% en precisión.
English
Omnimodal large language models have made significant strides in unifying audio and visual modalities; however, they often lack the fine-grained cross-modal understanding and have difficulty with multimodal alignment. To address these limitations, we introduce OmniAgent, a fully audio-guided active perception agent that dynamically orchestrates specialized tools to achieve more fine-grained audio-visual reasoning. Unlike previous works that rely on rigid, static workflows and dense frame-captioning, this paper demonstrates a paradigm shift from passive response generation to active multimodal inquiry. OmniAgent employs dynamic planning to autonomously orchestrate tool invocation on demand, strategically concentrating perceptual attention on task-relevant cues. Central to our approach is a novel coarse-to-fine audio-guided perception paradigm, which leverages audio cues to localize temporal events and guide subsequent reasoning. Extensive empirical evaluations on three audio-video understanding benchmarks demonstrate that OmniAgent achieves state-of-the-art performance, surpassing leading open-source and proprietary models by substantial margins of 10% - 20% accuracy.
PDF81December 31, 2025