Audio-Visuelles Verständnis in großen Foundation Models

Zusammenfassung

Audiovisuelle Intelligenz (AVI) hat sich als zentrale Forschungsfront in der Künstlichen Intelligenz etabliert, die auditive und visuelle Modalitäten verbindet, um Maschinen zu ermöglichen, die in der multimodalen realen Welt wahrnehmen, generieren und interagieren können. Im Zeitalter großer Basismodelle ist die gemeinsame Modellierung von Audio und Vision zunehmend entscheidend geworden, nicht nur für das Verständnis, sondern auch für die kontrollierbare Generierung und das Schlussfolgern über dynamische, zeitlich verankerte Signale. Jüngste Fortschritte wie Meta MovieGen und Google Veo-3 unterstreichen das wachsende industrielle und akademische Interesse an vereinheitlichten Audio-Vision-Architekturen, die aus massiven multimodalen Daten lernen. Trotz rasanter Fortschritte bleibt die Literatur jedoch fragmentiert, da sie vielfältige Aufgaben, inkonsistente Taxonomien und heterogene Evaluierungspraktiken umfasst, die einen systematischen Vergleich und Wissensintegration behindern. Dieser Übersichtsartikel bietet die erste umfassende Betrachtung von AVI durch die Linse großer Basismodelle. Wir etablieren eine einheitliche Taxonomie, die das breite Aufgabenspektrum der AVI abdeckt, vom Verstehen (z.B. Spracherkennung, Schallortung) über die Generierung (z.B. audiogesteuerte Videosynthese, Video-zu-Audio) bis hin zur Interaktion (z.B. Dialog-, verkörperte oder agentenbasierte Schnittstellen). Wir synthetisieren methodische Grundlagen, einschließlich Modalitätstokenisierung, cross-modaler Fusion, autoregressiver und diffusionsbasierter Generierung, Large-Scale-Pretraining, Instruktionsalignment und Präferenzoptimierung. Darüber hinaus stellen wir repräsentative Datensätze, Benchmarks und Evaluierungsmetriken zusammen, bieten einen strukturierten Vergleich über Aufgabenfamilien hinweg und identifizieren offene Herausforderungen in den Bereichen Synchronisation, räumliches Schließen, Steuerbarkeit und Sicherheit. Indem wir dieses sich schnell ausdehnende Forschungsgebiet in einen kohärenten Rahmen zusammenfassen, zielt dieser Übersichtsartikel darauf ab, eine grundlegende Referenz für die zukünftige Forschung zu großskaliger AVI zu sein.

English

Audio-Visual Intelligence (AVI) has emerged as a central frontier in artificial intelligence, bridging auditory and visual modalities to enable machines that can perceive, generate, and interact in the multimodal real world. In the era of large foundation models, joint modeling of audio and vision has become increasingly crucial, i.e., not only for understanding but also for controllable generation and reasoning across dynamic, temporally grounded signals. Recent advances, such as Meta MovieGen and Google Veo-3, highlight the growing industrial and academic focus on unified audio-vision architectures that learn from massive multimodal data. However, despite rapid progress, the literature remains fragmented, spanning diverse tasks, inconsistent taxonomies, and heterogeneous evaluation practices that impede systematic comparison and knowledge integration. This survey provides the first comprehensive review of AVI through the lens of large foundation models. We establish a unified taxonomy covering the broad landscape of AVI tasks, ranging from understanding (e.g., speech recognition, sound localization) to generation (e.g., audio-driven video synthesis, video-to-audio) and interaction (e.g., dialogue, embodied, or agentic interfaces). We synthesize methodological foundations, including modality tokenization, cross-modal fusion, autoregressive and diffusion-based generation, large-scale pretraining, instruction alignment, and preference optimization. Furthermore, we curate representative datasets, benchmarks, and evaluation metrics, offering a structured comparison across task families and identifying open challenges in synchronization, spatial reasoning, controllability, and safety. By consolidating this rapidly expanding field into a coherent framework, this survey aims to serve as a foundational reference for future research on large-scale AVI.

Audio-Visuelles Verständnis in großen Foundation Models

Audio-Visual Intelligence in Large Foundation Models

Zusammenfassung

Support