ChatPaper.aiChatPaper

Inteligencia Audiovisual en Modelos de Fundación a Gran Escala

Audio-Visual Intelligence in Large Foundation Models

May 5, 2026
Autores: You Qin, Kai Liu, Shengqiong Wu, Kai Wang, Shijian Deng, Yapeng Tian, Junbin Xiao, Yazhou Xing, Yinghao Ma, Bobo Li, Roger Zimmermann, Lei Cui, Furu Wei, Jiebo Luo, Hao Fei
cs.AI

Resumen

La Inteligencia Audiovisual (IAV) se ha consolidado como una frontera central en la inteligencia artificial, tendiendo un puente entre las modalidades auditiva y visual para permitir que las máquinas perciban, generen e interactúen en el mundo real multimodal. En la era de los grandes modelos fundacionales, el modelado conjunto de audio y visión se ha vuelto cada vez más crucial, no solo para la comprensión, sino también para la generación controlable y el razonamiento a partir de señales dinámicas y ancladas temporalmente. Avances recientes, como Meta MovieGen y Google Veo-3, destacan el creciente interés industrial y académico en arquitecturas audiovisuales unificadas que aprenden de datos multimodales masivos. Sin embargo, a pesar del rápido progreso, la literatura permanece fragmentada, abarcando tareas diversas, taxonomías inconsistentes y prácticas de evaluación heterogéneas que dificultan la comparación sistemática y la integración del conocimiento. Esta revisión ofrece el primer análisis exhaustivo de la IAV desde la perspectiva de los grandes modelos fundacionales. Establecemos una taxonomía unificada que cubre el amplio panorama de tareas de IAV, que van desde la comprensión (por ejemplo, reconocimiento de voz, localización de sonido) hasta la generación (por ejemplo, síntesis de video impulsada por audio, video-a-audio) y la interacción (por ejemplo, interfaces de diálogo, embodadas o agentivas). Sintetizamos los fundamentos metodológicos, incluyendo la tokenización de modalidades, la fusión cross-modal, la generación basada en modelos autoregresivos y de difusión, el pre-entrenamiento a gran escala, la alineación por instrucción y la optimización de preferencias. Además, recopilamos conjuntos de datos representativos, benchmarks y métricas de evaluación, ofreciendo una comparación estructurada entre familias de tareas e identificando desafíos abiertos en sincronización, razonamiento espacial, controlabilidad y seguridad. Al consolidar este campo en rápida expansión en un marco coherente, esta revisión pretende servir como referencia fundamental para la futura investigación sobre IAV a gran escala.
English
Audio-Visual Intelligence (AVI) has emerged as a central frontier in artificial intelligence, bridging auditory and visual modalities to enable machines that can perceive, generate, and interact in the multimodal real world. In the era of large foundation models, joint modeling of audio and vision has become increasingly crucial, i.e., not only for understanding but also for controllable generation and reasoning across dynamic, temporally grounded signals. Recent advances, such as Meta MovieGen and Google Veo-3, highlight the growing industrial and academic focus on unified audio-vision architectures that learn from massive multimodal data. However, despite rapid progress, the literature remains fragmented, spanning diverse tasks, inconsistent taxonomies, and heterogeneous evaluation practices that impede systematic comparison and knowledge integration. This survey provides the first comprehensive review of AVI through the lens of large foundation models. We establish a unified taxonomy covering the broad landscape of AVI tasks, ranging from understanding (e.g., speech recognition, sound localization) to generation (e.g., audio-driven video synthesis, video-to-audio) and interaction (e.g., dialogue, embodied, or agentic interfaces). We synthesize methodological foundations, including modality tokenization, cross-modal fusion, autoregressive and diffusion-based generation, large-scale pretraining, instruction alignment, and preference optimization. Furthermore, we curate representative datasets, benchmarks, and evaluation metrics, offering a structured comparison across task families and identifying open challenges in synchronization, spatial reasoning, controllability, and safety. By consolidating this rapidly expanding field into a coherent framework, this survey aims to serve as a foundational reference for future research on large-scale AVI.
PDF172May 9, 2026