ChatPaper.aiChatPaper

OmniAgent: Аудио-управляемый агент активного восприятия для омнимодального аудио-видео анализа

OmniAgent: Audio-Guided Active Perception Agent for Omnimodal Audio-Video Understanding

December 29, 2025
Авторы: Keda Tao, Wenjie Du, Bohan Yu, Weiqiang Wang, Jian Liu, Huan Wang
cs.AI

Аннотация

Омнимодальные большие языковые модели достигли значительного прогресса в объединении аудиальной и визуальной модальностей, однако им часто не хватает детального кросс-модального понимания, и они испытывают трудности с мультимодальным выравниванием. Для преодоления этих ограничений мы представляем OmniAgent — полностью аудиоуправляемого агента активного восприятия, который динамически оркестрирует специализированные инструменты для достижения более детального аудиовизуального мышления. В отличие от предыдущих работ, основанных на жёстких статических workflow и плотном описании кадров, данная статья демонстрирует смену парадигмы от пассивного генерации ответов к активному мультимодальному исследованию. OmniAgent использует динамическое планирование для автономной оркестровки вызова инструментов по требованию, стратегически концентрируя перцептивное внимание на релевантных для задачи сигналах. Ключевым элементом нашего подхода является новая парадигма аудиоуправляемого восприятия от грубого к точному, которая использует аудиоподсказки для локализации временных событий и направления последующего логического вывода. Обширные эмпирические оценки на трёх benchmarks понимания аудиовидео демонстрируют, что OmniAgent достигает наилучших результатов, превосходя ведущие открытые и проприетарные модели с существенным отрывом в 10–20% по точности.
English
Omnimodal large language models have made significant strides in unifying audio and visual modalities; however, they often lack the fine-grained cross-modal understanding and have difficulty with multimodal alignment. To address these limitations, we introduce OmniAgent, a fully audio-guided active perception agent that dynamically orchestrates specialized tools to achieve more fine-grained audio-visual reasoning. Unlike previous works that rely on rigid, static workflows and dense frame-captioning, this paper demonstrates a paradigm shift from passive response generation to active multimodal inquiry. OmniAgent employs dynamic planning to autonomously orchestrate tool invocation on demand, strategically concentrating perceptual attention on task-relevant cues. Central to our approach is a novel coarse-to-fine audio-guided perception paradigm, which leverages audio cues to localize temporal events and guide subsequent reasoning. Extensive empirical evaluations on three audio-video understanding benchmarks demonstrate that OmniAgent achieves state-of-the-art performance, surpassing leading open-source and proprietary models by substantial margins of 10% - 20% accuracy.
PDF81December 31, 2025