Vendo Vozes: Gerando Vídeo A-Roll a partir de Áudio com Mirage
Seeing Voices: Generating A-Roll Video from Audio with Mirage
June 9, 2025
Autores: Aditi Sundararaman, Amogh Adishesha, Andrew Jaegle, Dan Bigioi, Hyoung-Kyu Song, Jon Kyl, Justin Mao, Kevin Lan, Mojtaba Komeili, ShahRukh Athar, Sheila Babayan, Stanislau Beliasau, William Buchwalter
cs.AI
Resumo
Da produção profissional de filmes ao conteúdo gerado por usuários, criadores e consumidores há muito reconhecem que o poder do vídeo depende da integração harmoniosa entre o que ouvimos (a trilha sonora do vídeo) e o que vemos (a sequência de imagens do vídeo). As abordagens atuais para geração de vídeo ou ignoram o som para focar na geração de sequências de imagens de propósito geral, mas silenciosas, ou abordam tanto os elementos visuais quanto os auditivos, mas se concentram em domínios de aplicação restritos, como redublagem. Apresentamos o Mirage, um modelo de base áudio-para-vídeo que se destaca na geração de imagens de saída realistas e expressivas a partir do zero, dado um áudio de entrada. Quando integrado a métodos existentes de síntese de fala (texto-para-fala, ou TTS), o Mirage resulta em vídeos multimodais convincentes. Quando treinado em filmagens áudio-vídeo de pessoas falando (A-roll) e condicionado a áudios contendo fala, o Mirage gera vídeos de pessoas entregando uma interpretação crível da performance implícita no áudio de entrada. Nossa principal contribuição técnica é um método unificado para treinar modelos de geração áudio-para-vídeo baseados em autoatenção, seja a partir do zero ou com pesos existentes. Essa metodologia permite que o Mirage mantenha a generalidade como uma abordagem para geração áudio-para-vídeo, enquanto produz saídas de qualidade subjetiva superior a métodos que incorporam arquiteturas específicas para áudio ou componentes de perda específicos para pessoas, fala ou detalhes de como as imagens ou áudios são capturados. Incentivamos os leitores a assistirem e ouvirem os resultados do Mirage por si mesmos (veja o artigo e os comentários para links).
English
From professional filmmaking to user-generated content, creators and
consumers have long recognized that the power of video depends on the
harmonious integration of what we hear (the video's audio track) with what we
see (the video's image sequence). Current approaches to video generation either
ignore sound to focus on general-purpose but silent image sequence generation
or address both visual and audio elements but focus on restricted application
domains such as re-dubbing. We introduce Mirage, an audio-to-video foundation
model that excels at generating realistic, expressive output imagery from
scratch given an audio input. When integrated with existing methods for speech
synthesis (text-to-speech, or TTS), Mirage results in compelling multimodal
video. When trained on audio-video footage of people talking (A-roll) and
conditioned on audio containing speech, Mirage generates video of people
delivering a believable interpretation of the performance implicit in input
audio. Our central technical contribution is a unified method for training
self-attention-based audio-to-video generation models, either from scratch or
given existing weights. This methodology allows Mirage to retain generality as
an approach to audio-to-video generation while producing outputs of superior
subjective quality to methods that incorporate audio-specific architectures or
loss components specific to people, speech, or details of how images or audio
are captured. We encourage readers to watch and listen to the results of Mirage
for themselves (see paper and comments for links).