Voir les voix : Génération de vidéo A-Roll à partir de l'audio avec Mirage
Seeing Voices: Generating A-Roll Video from Audio with Mirage
June 9, 2025
Auteurs: Aditi Sundararaman, Amogh Adishesha, Andrew Jaegle, Dan Bigioi, Hyoung-Kyu Song, Jon Kyl, Justin Mao, Kevin Lan, Mojtaba Komeili, ShahRukh Athar, Sheila Babayan, Stanislau Beliasau, William Buchwalter
cs.AI
Résumé
Du cinéma professionnel au contenu généré par les utilisateurs, les créateurs et les consommateurs ont longtemps reconnu que la puissance de la vidéo dépend de l'intégration harmonieuse de ce que nous entendons (la piste audio de la vidéo) avec ce que nous voyons (la séquence d'images de la vidéo). Les approches actuelles de génération de vidéos ignorent soit le son pour se concentrer sur la génération de séquences d'images silencieuses à usage général, soit traitent à la fois les éléments visuels et audio mais se limitent à des domaines d'application restreints tels que le redoublage. Nous présentons Mirage, un modèle de base audio-à-vidéo qui excelle dans la génération d'images réalistes et expressives à partir de zéro, à partir d'une entrée audio. Lorsqu'il est intégré à des méthodes existantes de synthèse vocale (texte-à-parole, ou TTS), Mirage produit des vidéos multimodales convaincantes. Lorsqu'il est entraîné sur des séquences audio-vidéo de personnes parlant (A-roll) et conditionné par un audio contenant de la parole, Mirage génère des vidéos de personnes interprétant de manière crédible la performance implicite dans l'audio d'entrée. Notre contribution technique centrale est une méthode unifiée pour entraîner des modèles de génération audio-à-vidéo basés sur l'auto-attention, soit à partir de zéro, soit en utilisant des poids existants. Cette méthodologie permet à Mirage de conserver sa généralité en tant qu'approche de génération audio-à-vidéo tout en produisant des résultats de qualité subjective supérieure à ceux des méthodes qui intègrent des architectures spécifiques à l'audio ou des composantes de perte spécifiques aux personnes, à la parole, ou aux détails de la capture d'images ou d'audio. Nous encourageons les lecteurs à regarder et écouter par eux-mêmes les résultats de Mirage (voir le document et les commentaires pour les liens).
English
From professional filmmaking to user-generated content, creators and
consumers have long recognized that the power of video depends on the
harmonious integration of what we hear (the video's audio track) with what we
see (the video's image sequence). Current approaches to video generation either
ignore sound to focus on general-purpose but silent image sequence generation
or address both visual and audio elements but focus on restricted application
domains such as re-dubbing. We introduce Mirage, an audio-to-video foundation
model that excels at generating realistic, expressive output imagery from
scratch given an audio input. When integrated with existing methods for speech
synthesis (text-to-speech, or TTS), Mirage results in compelling multimodal
video. When trained on audio-video footage of people talking (A-roll) and
conditioned on audio containing speech, Mirage generates video of people
delivering a believable interpretation of the performance implicit in input
audio. Our central technical contribution is a unified method for training
self-attention-based audio-to-video generation models, either from scratch or
given existing weights. This methodology allows Mirage to retain generality as
an approach to audio-to-video generation while producing outputs of superior
subjective quality to methods that incorporate audio-specific architectures or
loss components specific to people, speech, or details of how images or audio
are captured. We encourage readers to watch and listen to the results of Mirage
for themselves (see paper and comments for links).