Stemmen Zien: A-Roll Video Genereren vanuit Audio met Mirage
Seeing Voices: Generating A-Roll Video from Audio with Mirage
June 9, 2025
Auteurs: Aditi Sundararaman, Amogh Adishesha, Andrew Jaegle, Dan Bigioi, Hyoung-Kyu Song, Jon Kyl, Justin Mao, Kevin Lan, Mojtaba Komeili, ShahRukh Athar, Sheila Babayan, Stanislau Beliasau, William Buchwalter
cs.AI
Samenvatting
Van professionele filmproductie tot door gebruikers gegenereerde inhoud, makers en consumenten hebben lang erkend dat de kracht van video afhangt van de harmonieuze integratie van wat we horen (de audiotrack van de video) met wat we zien (de beeldsequentie van de video). Huidige benaderingen voor videogeneratie negeren geluid om zich te richten op algemene maar stille beeldsequentiegeneratie, of behandelen zowel visuele als auditieve elementen maar richten zich op beperkte toepassingsdomeinen zoals nasynchronisatie. Wij introduceren Mirage, een audio-naar-video foundation-model dat uitblinkt in het genereren van realistische, expressieve beeldmateriaal vanaf nul, gegeven een audio-input. Wanneer geïntegreerd met bestaande methoden voor spraaksynthese (tekst-naar-spraak, of TTS), resulteert Mirage in overtuigende multimodale video. Wanneer getraind op audio-videobeelden van pratende mensen (A-roll) en geconditioneerd op audio die spraak bevat, genereert Mirage video's van mensen die een geloofwaardige interpretatie geven van de uitvoering die impliciet is in de inputaudio. Onze centrale technische bijdrage is een uniforme methode voor het trainen van zelf-attentiegebaseerde audio-naar-video generatiemodellen, zowel vanaf nul als met bestaande gewichten. Deze methodologie stelt Mirage in staat om algemeen te blijven als een benadering voor audio-naar-video generatie, terwijl het uitvoer produceert van superieure subjectieve kwaliteit in vergelijking met methoden die audio-specifieke architecturen of verliescomponenten bevatten die specifiek zijn voor mensen, spraak, of details van hoe beelden of audio worden vastgelegd. Wij moedigen lezers aan om de resultaten van Mirage zelf te bekijken en beluisteren (zie het artikel en de opmerkingen voor links).
English
From professional filmmaking to user-generated content, creators and
consumers have long recognized that the power of video depends on the
harmonious integration of what we hear (the video's audio track) with what we
see (the video's image sequence). Current approaches to video generation either
ignore sound to focus on general-purpose but silent image sequence generation
or address both visual and audio elements but focus on restricted application
domains such as re-dubbing. We introduce Mirage, an audio-to-video foundation
model that excels at generating realistic, expressive output imagery from
scratch given an audio input. When integrated with existing methods for speech
synthesis (text-to-speech, or TTS), Mirage results in compelling multimodal
video. When trained on audio-video footage of people talking (A-roll) and
conditioned on audio containing speech, Mirage generates video of people
delivering a believable interpretation of the performance implicit in input
audio. Our central technical contribution is a unified method for training
self-attention-based audio-to-video generation models, either from scratch or
given existing weights. This methodology allows Mirage to retain generality as
an approach to audio-to-video generation while producing outputs of superior
subjective quality to methods that incorporate audio-specific architectures or
loss components specific to people, speech, or details of how images or audio
are captured. We encourage readers to watch and listen to the results of Mirage
for themselves (see paper and comments for links).