Видимые голоса: создание A-roll видео из аудио с помощью Mirage
Seeing Voices: Generating A-Roll Video from Audio with Mirage
June 9, 2025
Авторы: Aditi Sundararaman, Amogh Adishesha, Andrew Jaegle, Dan Bigioi, Hyoung-Kyu Song, Jon Kyl, Justin Mao, Kevin Lan, Mojtaba Komeili, ShahRukh Athar, Sheila Babayan, Stanislau Beliasau, William Buchwalter
cs.AI
Аннотация
От профессионального кинопроизводства до пользовательского контента, создатели и зрители давно осознали, что сила видео зависит от гармоничного сочетания того, что мы слышим (аудиодорожка видео) с тем, что мы видим (последовательность изображений). Современные подходы к генерации видео либо игнорируют звук, сосредотачиваясь на создании универсальных, но беззвучных последовательностей изображений, либо учитывают как визуальные, так и аудиоэлементы, но ограничиваются узкими областями применения, такими как переозвучивание. Мы представляем Mirage — базовую модель для преобразования аудио в видео, которая превосходно справляется с генерацией реалистичных и выразительных изображений с нуля на основе аудиовхода. При интеграции с существующими методами синтеза речи (текст-в-речь, или TTS), Mirage создаёт убедительные мультимодальные видео. При обучении на аудио-видео материалах с людьми, говорящими в кадре (A-roll), и при условии аудио, содержащего речь, Mirage генерирует видео, где люди достоверно интерпретируют выступление, заложенное в аудиовходе. Наш ключевой технический вклад — унифицированный метод обучения моделей генерации видео на основе аудио, использующих механизмы самовнимания, как с нуля, так и с использованием предварительно обученных весов. Этот подход позволяет Mirage сохранять универсальность как метод преобразования аудио в видео, при этом создавая результаты, которые субъективно превосходят по качеству методы, включающие специализированные архитектуры для аудио или компоненты потерь, ориентированные на людей, речь или особенности захвата изображений или звука. Мы рекомендуем читателям самостоятельно оценить результаты работы Mirage (ссылки приведены в статье и комментариях).
English
From professional filmmaking to user-generated content, creators and
consumers have long recognized that the power of video depends on the
harmonious integration of what we hear (the video's audio track) with what we
see (the video's image sequence). Current approaches to video generation either
ignore sound to focus on general-purpose but silent image sequence generation
or address both visual and audio elements but focus on restricted application
domains such as re-dubbing. We introduce Mirage, an audio-to-video foundation
model that excels at generating realistic, expressive output imagery from
scratch given an audio input. When integrated with existing methods for speech
synthesis (text-to-speech, or TTS), Mirage results in compelling multimodal
video. When trained on audio-video footage of people talking (A-roll) and
conditioned on audio containing speech, Mirage generates video of people
delivering a believable interpretation of the performance implicit in input
audio. Our central technical contribution is a unified method for training
self-attention-based audio-to-video generation models, either from scratch or
given existing weights. This methodology allows Mirage to retain generality as
an approach to audio-to-video generation while producing outputs of superior
subjective quality to methods that incorporate audio-specific architectures or
loss components specific to people, speech, or details of how images or audio
are captured. We encourage readers to watch and listen to the results of Mirage
for themselves (see paper and comments for links).