Vedere le Voci: Generazione di Video A-Roll dall'Audio con Mirage
Seeing Voices: Generating A-Roll Video from Audio with Mirage
June 9, 2025
Autori: Aditi Sundararaman, Amogh Adishesha, Andrew Jaegle, Dan Bigioi, Hyoung-Kyu Song, Jon Kyl, Justin Mao, Kevin Lan, Mojtaba Komeili, ShahRukh Athar, Sheila Babayan, Stanislau Beliasau, William Buchwalter
cs.AI
Abstract
Dalla produzione cinematografica professionale ai contenuti generati dagli utenti, creatori e consumatori hanno da tempo riconosciuto che il potere del video dipende dall'integrazione armoniosa di ciò che ascoltiamo (la traccia audio del video) con ciò che vediamo (la sequenza di immagini del video). Gli approcci attuali alla generazione di video ignorano il suono per concentrarsi sulla generazione di sequenze di immagini silenziose ma di uso generale, oppure affrontano sia gli elementi visivi che quelli audio ma si concentrano su domini applicativi ristretti come il re-doppiaggio. Presentiamo Mirage, un modello di base audio-to-video che eccelle nella generazione di immagini realistiche ed espressive da zero, dato un input audio. Quando integrato con metodi esistenti per la sintesi vocale (text-to-speech, o TTS), Mirage produce video multimodali convincenti. Quando addestrato su filmati audio-video di persone che parlano (A-roll) e condizionato su audio contenente discorsi, Mirage genera video di persone che offrono un'interpretazione credibile della performance implicita nell'audio di input. Il nostro contributo tecnico centrale è un metodo unificato per addestrare modelli di generazione audio-to-video basati su self-attention, sia da zero che con pesi esistenti. Questa metodologia consente a Mirage di mantenere la generalità come approccio alla generazione audio-to-video, producendo risultati di qualità soggettiva superiore rispetto ai metodi che incorporano architetture specifiche per l'audio o componenti di perdita specifiche per persone, discorsi o dettagli su come le immagini o l'audio vengono catturati. Invitiamo i lettori a guardare e ascoltare i risultati di Mirage di persona (vedi il documento e i commenti per i link).
English
From professional filmmaking to user-generated content, creators and
consumers have long recognized that the power of video depends on the
harmonious integration of what we hear (the video's audio track) with what we
see (the video's image sequence). Current approaches to video generation either
ignore sound to focus on general-purpose but silent image sequence generation
or address both visual and audio elements but focus on restricted application
domains such as re-dubbing. We introduce Mirage, an audio-to-video foundation
model that excels at generating realistic, expressive output imagery from
scratch given an audio input. When integrated with existing methods for speech
synthesis (text-to-speech, or TTS), Mirage results in compelling multimodal
video. When trained on audio-video footage of people talking (A-roll) and
conditioned on audio containing speech, Mirage generates video of people
delivering a believable interpretation of the performance implicit in input
audio. Our central technical contribution is a unified method for training
self-attention-based audio-to-video generation models, either from scratch or
given existing weights. This methodology allows Mirage to retain generality as
an approach to audio-to-video generation while producing outputs of superior
subjective quality to methods that incorporate audio-specific architectures or
loss components specific to people, speech, or details of how images or audio
are captured. We encourage readers to watch and listen to the results of Mirage
for themselves (see paper and comments for links).