L'intelligence audio-visuelle dans les grands modèles de fondation

Résumé

L'intelligence audio-visuelle (IAV) est devenue une frontière centrale de l'intelligence artificielle, faisant le pont entre les modalités auditive et visuelle pour permettre aux machines de percevoir, générer et interagir dans un monde réel multimodal. À l'ère des grands modèles de fondation, la modélisation conjointe de l'audio et de la vision est devenue de plus en plus cruciale, c'est-à-dire non seulement pour la compréhension, mais aussi pour la génération contrôlable et le raisonnement sur des signaux dynamiques ancrés temporellement. Les progrès récents, tels que Meta MovieGen et Google Veo-3, soulignent l'attention croissante des milieux industriels et académiques pour les architectures audio-visuelles unifiées qui apprennent à partir de données multimodales massives. Cependant, malgré les rapides progrès, la littérature reste fragmentée, couvrant des tâches diverses, des taxonomies incohérentes et des pratiques d'évaluation hétérogènes qui entravent la comparaison systématique et l'intégration des connaissances. Cette synthèse offre la première revue complète de l'IAV sous l'angle des grands modèles de fondation. Nous établissons une taxonomie unifiée couvrant le vaste paysage des tâches de l'IAV, allant de la compréhension (p. ex., reconnaissance de la parole, localisation sonore) à la génération (p. ex., synthèse vidéo pilotée par l'audio, vidéo-vers-audio) et à l'interaction (p. ex., interfaces dialogiques, incarnées ou agentielles). Nous synthétisons les fondements méthodologiques, incluant la tokenisation des modalités, la fusion cross-modale, la génération autogressive et basée sur la diffusion, le pré-entraînement à grande échelle, l'alignement par instruction et l'optimisation des préférences. De plus, nous recensons des ensembles de données, des benchmarks et des métriques d'évaluation représentatifs, offrant une comparaison structurée entre les familles de tâches et identifiant les défis ouverts en matière de synchronisation, de raisonnement spatial, de contrôlabilité et de sécurité. En consolidant ce domaine en expansion rapide en un cadre cohérent, cette synthèse vise à servir de référence fondamentale pour les futures recherches sur l'IAV à grande échelle.

English

Audio-Visual Intelligence (AVI) has emerged as a central frontier in artificial intelligence, bridging auditory and visual modalities to enable machines that can perceive, generate, and interact in the multimodal real world. In the era of large foundation models, joint modeling of audio and vision has become increasingly crucial, i.e., not only for understanding but also for controllable generation and reasoning across dynamic, temporally grounded signals. Recent advances, such as Meta MovieGen and Google Veo-3, highlight the growing industrial and academic focus on unified audio-vision architectures that learn from massive multimodal data. However, despite rapid progress, the literature remains fragmented, spanning diverse tasks, inconsistent taxonomies, and heterogeneous evaluation practices that impede systematic comparison and knowledge integration. This survey provides the first comprehensive review of AVI through the lens of large foundation models. We establish a unified taxonomy covering the broad landscape of AVI tasks, ranging from understanding (e.g., speech recognition, sound localization) to generation (e.g., audio-driven video synthesis, video-to-audio) and interaction (e.g., dialogue, embodied, or agentic interfaces). We synthesize methodological foundations, including modality tokenization, cross-modal fusion, autoregressive and diffusion-based generation, large-scale pretraining, instruction alignment, and preference optimization. Furthermore, we curate representative datasets, benchmarks, and evaluation metrics, offering a structured comparison across task families and identifying open challenges in synchronization, spatial reasoning, controllability, and safety. By consolidating this rapidly expanding field into a coherent framework, this survey aims to serve as a foundational reference for future research on large-scale AVI.

L'intelligence audio-visuelle dans les grands modèles de fondation

Audio-Visual Intelligence in Large Foundation Models

Résumé

Support