Seeing Voices: Erzeugung von A-Roll-Videos aus Audio mit Mirage
Seeing Voices: Generating A-Roll Video from Audio with Mirage
June 9, 2025
Autoren: Aditi Sundararaman, Amogh Adishesha, Andrew Jaegle, Dan Bigioi, Hyoung-Kyu Song, Jon Kyl, Justin Mao, Kevin Lan, Mojtaba Komeili, ShahRukh Athar, Sheila Babayan, Stanislau Beliasau, William Buchwalter
cs.AI
Zusammenfassung
Von professioneller Filmproduktion bis hin zu nutzergenerierten Inhalten haben Schöpfer und Konsumenten schon lange erkannt, dass die Wirkung von Videos von der harmonischen Integration dessen abhängt, was wir hören (der Audiospur des Videos) und was wir sehen (die Bildsequenz des Videos). Aktuelle Ansätze zur Videogenerierung ignorieren entweder den Ton, um sich auf die allgemeine, aber stumme Generierung von Bildsequenzen zu konzentrieren, oder sie behandeln sowohl visuelle als auch auditive Elemente, beschränken sich jedoch auf spezifische Anwendungsbereiche wie das Nachsynchronisieren. Wir stellen Mirage vor, ein Audio-zu-Video-Foundation-Modell, das sich durch die Erzeugung realistischer, ausdrucksstarker Bildsequenzen aus dem Nichts heraus bei gegebenem Audioeingang auszeichnet. In Kombination mit bestehenden Methoden zur Sprachsynthese (Text-zu-Sprache, oder TTS) erzeugt Mirage überzeugende multimodale Videos. Wenn Mirage mit Audio-Video-Material von sprechenden Personen (A-Roll) trainiert und auf Audio mit Sprache konditioniert wird, generiert es Videos von Personen, die eine glaubwürdige Interpretation der im Eingangsaudio implizierten Darbietung liefern. Unser zentraler technischer Beitrag ist eine einheitliche Methode zur Schulung von auf Selbstaufmerksamkeit basierenden Audio-zu-Video-Generierungsmodellen, entweder von Grund auf oder unter Verwendung bestehender Gewichte. Diese Methodik ermöglicht es Mirage, seine Allgemeingültigkeit als Ansatz zur Audio-zu-Video-Generierung beizubehalten, während es Ausgaben von überlegener subjektiver Qualität im Vergleich zu Methoden erzeugt, die audio-spezifische Architekturen oder verlustspezifische Komponenten für Personen, Sprache oder Details der Bild- oder Audioaufnahme integrieren. Wir ermutigen die Leser, die Ergebnisse von Mirage selbst zu betrachten und anzuhören (siehe Artikel und Kommentare für Links).
English
From professional filmmaking to user-generated content, creators and
consumers have long recognized that the power of video depends on the
harmonious integration of what we hear (the video's audio track) with what we
see (the video's image sequence). Current approaches to video generation either
ignore sound to focus on general-purpose but silent image sequence generation
or address both visual and audio elements but focus on restricted application
domains such as re-dubbing. We introduce Mirage, an audio-to-video foundation
model that excels at generating realistic, expressive output imagery from
scratch given an audio input. When integrated with existing methods for speech
synthesis (text-to-speech, or TTS), Mirage results in compelling multimodal
video. When trained on audio-video footage of people talking (A-roll) and
conditioned on audio containing speech, Mirage generates video of people
delivering a believable interpretation of the performance implicit in input
audio. Our central technical contribution is a unified method for training
self-attention-based audio-to-video generation models, either from scratch or
given existing weights. This methodology allows Mirage to retain generality as
an approach to audio-to-video generation while producing outputs of superior
subjective quality to methods that incorporate audio-specific architectures or
loss components specific to people, speech, or details of how images or audio
are captured. We encourage readers to watch and listen to the results of Mirage
for themselves (see paper and comments for links).