Ver Voces: Generación de Video A-Roll a partir de Audio con Mirage
Seeing Voices: Generating A-Roll Video from Audio with Mirage
June 9, 2025
Autores: Aditi Sundararaman, Amogh Adishesha, Andrew Jaegle, Dan Bigioi, Hyoung-Kyu Song, Jon Kyl, Justin Mao, Kevin Lan, Mojtaba Komeili, ShahRukh Athar, Sheila Babayan, Stanislau Beliasau, William Buchwalter
cs.AI
Resumen
Desde el cine profesional hasta el contenido generado por usuarios, creadores y consumidores han reconocido desde hace tiempo que el poder del video depende de la integración armoniosa de lo que escuchamos (la pista de audio del video) con lo que vemos (la secuencia de imágenes del video). Los enfoques actuales para la generación de video ignoran el sonido para centrarse en la generación de secuencias de imágenes de propósito general pero silenciosas, o abordan tanto los elementos visuales como los auditivos pero se enfocan en dominios de aplicación restringidos, como el redoblaje. Presentamos Mirage, un modelo base de audio a video que sobresale en la generación de imágenes realistas y expresivas desde cero a partir de una entrada de audio. Cuando se integra con métodos existentes de síntesis de voz (texto a voz, o TTS), Mirage produce videos multimodales convincentes. Cuando se entrena con material audiovisual de personas hablando (A-roll) y se condiciona con audio que contiene habla, Mirage genera videos de personas que ofrecen una interpretación creíble de la actuación implícita en el audio de entrada. Nuestra contribución técnica central es un método unificado para entrenar modelos de generación de audio a video basados en autoatención, ya sea desde cero o a partir de pesos existentes. Esta metodología permite que Mirage mantenga su generalidad como enfoque para la generación de audio a video, mientras produce resultados de calidad subjetiva superior a los métodos que incorporan arquitecturas específicas para audio o componentes de pérdida específicos para personas, habla o detalles sobre cómo se capturan las imágenes o el audio. Animamos a los lectores a ver y escuchar los resultados de Mirage por sí mismos (consulte el artículo y los comentarios para obtener enlaces).
English
From professional filmmaking to user-generated content, creators and
consumers have long recognized that the power of video depends on the
harmonious integration of what we hear (the video's audio track) with what we
see (the video's image sequence). Current approaches to video generation either
ignore sound to focus on general-purpose but silent image sequence generation
or address both visual and audio elements but focus on restricted application
domains such as re-dubbing. We introduce Mirage, an audio-to-video foundation
model that excels at generating realistic, expressive output imagery from
scratch given an audio input. When integrated with existing methods for speech
synthesis (text-to-speech, or TTS), Mirage results in compelling multimodal
video. When trained on audio-video footage of people talking (A-roll) and
conditioned on audio containing speech, Mirage generates video of people
delivering a believable interpretation of the performance implicit in input
audio. Our central technical contribution is a unified method for training
self-attention-based audio-to-video generation models, either from scratch or
given existing weights. This methodology allows Mirage to retain generality as
an approach to audio-to-video generation while producing outputs of superior
subjective quality to methods that incorporate audio-specific architectures or
loss components specific to people, speech, or details of how images or audio
are captured. We encourage readers to watch and listen to the results of Mirage
for themselves (see paper and comments for links).