ChatPaper.aiChatPaper

Audiovisuele Intelligentie in Grote Foundation-modellen

Audio-Visual Intelligence in Large Foundation Models

May 5, 2026
Auteurs: You Qin, Kai Liu, Shengqiong Wu, Kai Wang, Shijian Deng, Yapeng Tian, Junbin Xiao, Yazhou Xing, Yinghao Ma, Bobo Li, Roger Zimmermann, Lei Cui, Furu Wei, Jiebo Luo, Hao Fei
cs.AI

Samenvatting

Audiovisuele Intelligentie (AVI) is naar voren gekomen als een centraal onderzoeksfront binnen de kunstmatige intelligentie. Het overbrugt auditieve en visuele modaliteiten om machines in staat te stellen de multimodale echte wereld waar te nemen, te genereren en ermee te interacteren. In het tijdperk van grote foundation-modellen is gezamenlijke modellering van audio en visie steeds crucialer geworden, niet alleen voor begrip, maar ook voor beheerbare generatie en redenering over dynamische, temporeel verankerde signalen. Recente vooruitgang, zoals Meta MovieGen en Google Veo-3, benadrukt de groeiende industriële en academische aandacht voor uniforme audio-visie-architecturen die leren van massale multimodale data. Desondanks de snelle vooruitgang blijft de literatuur gefragmenteerd, met uiteenlopende taken, inconsistente taxonomieën en heterogene evaluatiepraktijken die een systematische vergelijking en kennisintegratie belemmeren. Dit overzichtsartikel biedt de eerste uitgebreide review van AVI door de lens van grote foundation-modellen. Wij stellen een uniforme taxonomie op die het brede landschap van AVI-taken omvat, variërend van begrip (bijv. spraakherkenning, geluidslokalisatie) tot generatie (bijv. audiogestuurde videosynthese, video-naar-audio) en interactie (bijv. dialoog-, belichaamde of agent-gebaseerde interfaces). Wij synthetiseren methodologische fundamenten, waaronder modaliteitstokenisatie, cross-modale fusie, autoregressieve en op diffusie gebaseerde generatie, grootschalige pre-training, instructie-uitlijning en voorkeursoptimalisatie. Verder hebben wij representatieve datasets, benchmarks en evaluatiemetrics samengesteld, waardoor een gestructureerde vergelijking over taakfamilies heen mogelijk wordt en open uitdagingen op het gebied van synchronisatie, ruimtelijk redeneren, beheerbaarheid en veiligheid worden geïdentificeerd. Door dit snel expanderende vakgebied te consolideren in een coherent kader, beoogt dit overzichtsartikel te dienen als een fundamentele referentie voor toekomstig onderzoek naar grootschalige AVI.
English
Audio-Visual Intelligence (AVI) has emerged as a central frontier in artificial intelligence, bridging auditory and visual modalities to enable machines that can perceive, generate, and interact in the multimodal real world. In the era of large foundation models, joint modeling of audio and vision has become increasingly crucial, i.e., not only for understanding but also for controllable generation and reasoning across dynamic, temporally grounded signals. Recent advances, such as Meta MovieGen and Google Veo-3, highlight the growing industrial and academic focus on unified audio-vision architectures that learn from massive multimodal data. However, despite rapid progress, the literature remains fragmented, spanning diverse tasks, inconsistent taxonomies, and heterogeneous evaluation practices that impede systematic comparison and knowledge integration. This survey provides the first comprehensive review of AVI through the lens of large foundation models. We establish a unified taxonomy covering the broad landscape of AVI tasks, ranging from understanding (e.g., speech recognition, sound localization) to generation (e.g., audio-driven video synthesis, video-to-audio) and interaction (e.g., dialogue, embodied, or agentic interfaces). We synthesize methodological foundations, including modality tokenization, cross-modal fusion, autoregressive and diffusion-based generation, large-scale pretraining, instruction alignment, and preference optimization. Furthermore, we curate representative datasets, benchmarks, and evaluation metrics, offering a structured comparison across task families and identifying open challenges in synchronization, spatial reasoning, controllability, and safety. By consolidating this rapidly expanding field into a coherent framework, this survey aims to serve as a foundational reference for future research on large-scale AVI.
PDF263May 11, 2026