OmniAgent: オムニモーダル音声・映像理解のための音声誘導型能動知覚エージェント
OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding
December 29, 2025
著者: Keda Tao, Wenjie Du, Bohan Yu, Weiqiang Wang, Jian Liu, Huan Wang
cs.AI
要旨
オムニモーダル大規模言語モデルは、音声と視覚のモダリティ統合において大きな進展を遂げてきたが、細粒度のクロスモーダル理解に欠け、マルチモーダルな対応関係の構築が困難な場合が多い。これらの課題を解決するため、我々はOmniAgentを提案する。これは専門ツールを動的に調整して、より細粒度の音声-視覚推論を実現する、完全に音声誘導型の能動的知覚エージェントである。従来の研究が硬直した静的なワークフローや高密度なフレームキャプションに依存するのに対し、本論文は受動的な応答生成から能動的なマルチモーダル探索へのパラダイム転換を示す。OmniAgentは動的計画を用いて要求に応じたツール呼び出しを自律的に調整し、知覚的注意を戦略的にタスク関連の手がかりに集中させる。本手法の中核となるのは、音声手がかりで時間的イベントを局在化し、その後の推論を誘導する新しい粗密音声誘導知覚パラダイムである。3つの音声-映像理解ベンチマークによる広範な実証評価により、OmniAgentが最先端の性能を達成し、主要なオープンソースモデル及びプロプライエタリモデルを10%~20%の精度で大幅に上回ることを実証した。
English
Omnimodal large language models have made significant strides in unifying audio and visual modalities; however, they often lack the fine-grained cross-modal understanding and have difficulty with multimodal alignment. To address these limitations, we introduce OmniAgent, a fully audio-guided active perception agent that dynamically orchestrates specialized tools to achieve more fine-grained audio-visual reasoning. Unlike previous works that rely on rigid, static workflows and dense frame-captioning, this paper demonstrates a paradigm shift from passive response generation to active multimodal inquiry. OmniAgent employs dynamic planning to autonomously orchestrate tool invocation on demand, strategically concentrating perceptual attention on task-relevant cues. Central to our approach is a novel coarse-to-fine audio-guided perception paradigm, which leverages audio cues to localize temporal events and guide subsequent reasoning. Extensive empirical evaluations on three audio-video understanding benchmarks demonstrate that OmniAgent achieves state-of-the-art performance, surpassing leading open-source and proprietary models by substantial margins of 10% - 20% accuracy.