Аудиовизуальный интеллект в больших фундаментальных моделях
Audio-Visual Intelligence in Large Foundation Models
May 5, 2026
Авторы: You Qin, Kai Liu, Shengqiong Wu, Kai Wang, Shijian Deng, Yapeng Tian, Junbin Xiao, Yazhou Xing, Yinghao Ma, Bobo Li, Roger Zimmermann, Lei Cui, Furu Wei, Jiebo Luo, Hao Fei
cs.AI
Аннотация
Аудиовизуальный интеллект (АВИ) стал ключевым направлением в области искусственного интеллекта, объединяя слуховую и зрительную модальности для создания машин, способных воспринимать, генерировать и взаимодействовать в многомодальном реальном мире. В эпоху больших фундаментальных моделей совместное моделирование аудио и видео становится все более важным, причем не только для понимания, но и для управляемой генерации и логического вывода на основе динамических, временны́х сигналов. Недавние достижения, такие как Meta MovieGen и Google Veo-3, подчеркивают растущий интерес как в промышленности, так и в академической среде к унифицированным аудиовизуальным архитектурам, обучающимся на огромных массивах многомодальных данных. Однако, несмотря на быстрый прогресс, литература остается разрозненной, охватывая разнородные задачи, несогласованные таксономии и неоднородные практики оценки, что затрудняет систематическое сравнение и интеграцию знаний. Данный обзор представляет собой первое всестороннее исследование АВИ через призму больших фундаментальных моделей. Мы предлагаем унифицированную таксономию, охватывающую широкий спектр задач АВИ — от понимания (например, распознавание речи, локализация звука) до генерации (например, синтез видео на основе аудио, генерация аудио по видео) и взаимодействия (например, диалоговые, воплощенные или агентные интерфейсы). Мы систематизируем методологические основы, включая токенизацию модальностей, кросс-модальную фузию, авторегрессионную и диффузионную генерацию, крупномасштабное предобучение, инструктивное выравнивание и оптимизацию предпочтений. Кроме того, мы отбираем репрезентативные наборы данных, бенчмарки и метрики оценки, предлагая структурированное сравнение между семействами задач и выявляя открытые проблемы в области синхронизации, пространственного reasoning, управляемости и безопасности. Консолидируя эту быстро развивающуюся область в единую структуру, данный обзор призван служить фундаментальным ориентиром для будущих исследований в области крупномасштабного аудиовизуального интеллекта.
English
Audio-Visual Intelligence (AVI) has emerged as a central frontier in artificial intelligence, bridging auditory and visual modalities to enable machines that can perceive, generate, and interact in the multimodal real world. In the era of large foundation models, joint modeling of audio and vision has become increasingly crucial, i.e., not only for understanding but also for controllable generation and reasoning across dynamic, temporally grounded signals. Recent advances, such as Meta MovieGen and Google Veo-3, highlight the growing industrial and academic focus on unified audio-vision architectures that learn from massive multimodal data. However, despite rapid progress, the literature remains fragmented, spanning diverse tasks, inconsistent taxonomies, and heterogeneous evaluation practices that impede systematic comparison and knowledge integration. This survey provides the first comprehensive review of AVI through the lens of large foundation models. We establish a unified taxonomy covering the broad landscape of AVI tasks, ranging from understanding (e.g., speech recognition, sound localization) to generation (e.g., audio-driven video synthesis, video-to-audio) and interaction (e.g., dialogue, embodied, or agentic interfaces). We synthesize methodological foundations, including modality tokenization, cross-modal fusion, autoregressive and diffusion-based generation, large-scale pretraining, instruction alignment, and preference optimization. Furthermore, we curate representative datasets, benchmarks, and evaluation metrics, offering a structured comparison across task families and identifying open challenges in synchronization, spatial reasoning, controllability, and safety. By consolidating this rapidly expanding field into a coherent framework, this survey aims to serve as a foundational reference for future research on large-scale AVI.