ChatPaper.aiChatPaper

OmniAgent: 오디오 가이드 능동 인지 에이전트를 통한 오디오-비디오 전모달 이해

OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding

December 29, 2025
저자: Keda Tao, Wenjie Du, Bohan Yu, Weiqiang Wang, Jian Liu, Huan Wang
cs.AI

초록

범모달 대규모 언어 모델은 오디오와 시각 양상을 통합하는 데 큰 진전을 이루었지만, 종종 세밀한 수준의 교차 양상 이해가 부족하고 다중 양상 정렬에 어려움을 겪습니다. 이러한 한계를 해결하기 위해 본 논문에서는 전문화된 도구들을 동적으로 조율하여 더욱 세밀한 오디오-시각 추론을 달성하는 완전 오디오 주도형 능동 인지 에이전트인 OmniAgent를 소개합니다. 경직된 정적 워크플로와 고밀도 프레임 캡션에 의존하는 기존 연구와 달리, 본 논문은 수동적 응답 생성에서 능동적 다중 양상 탐구로의 패러다임 전환을 보여줍니다. OmniAgent는 동적 계획을 통해 주문형 도구 호출을 자율적으로 조율하며, 작업 관련 단서에 인지적 주의를 전략적으로 집중합니다. 우리 접근법의 핵심은 오디오 단서를 활용하여 시간적 사건을 국소화하고 후속 추론을 안내하는 새로운 단계적 오디오 주도 인지 패러다임입니다. 세 가지 오디오-비디오 이해 벤치마크에 대한 포괄적인 실증 평가를 통해 OmniAgent가 최첨단 성능을 달성하며, 주요 오픈소스 및 독점 모델들을 10%~20% 정확도 차이로 크게 능가함을 입증했습니다.
English
Omnimodal large language models have made significant strides in unifying audio and visual modalities; however, they often lack the fine-grained cross-modal understanding and have difficulty with multimodal alignment. To address these limitations, we introduce OmniAgent, a fully audio-guided active perception agent that dynamically orchestrates specialized tools to achieve more fine-grained audio-visual reasoning. Unlike previous works that rely on rigid, static workflows and dense frame-captioning, this paper demonstrates a paradigm shift from passive response generation to active multimodal inquiry. OmniAgent employs dynamic planning to autonomously orchestrate tool invocation on demand, strategically concentrating perceptual attention on task-relevant cues. Central to our approach is a novel coarse-to-fine audio-guided perception paradigm, which leverages audio cues to localize temporal events and guide subsequent reasoning. Extensive empirical evaluations on three audio-video understanding benchmarks demonstrate that OmniAgent achieves state-of-the-art performance, surpassing leading open-source and proprietary models by substantial margins of 10% - 20% accuracy.
PDF81December 31, 2025