音声を見る:Mirageを用いた音声からのAロール動画生成
Seeing Voices: Generating A-Roll Video from Audio with Mirage
June 9, 2025
著者: Aditi Sundararaman, Amogh Adishesha, Andrew Jaegle, Dan Bigioi, Hyoung-Kyu Song, Jon Kyl, Justin Mao, Kevin Lan, Mojtaba Komeili, ShahRukh Athar, Sheila Babayan, Stanislau Beliasau, William Buchwalter
cs.AI
要旨
プロフェッショナルな映画制作からユーザー生成コンテンツまで、クリエイターと消費者は長い間、ビデオの力が「聞こえるもの」(ビデオのオーディオトラック)と「見えるもの」(ビデオの画像シーケンス)の調和のとれた統合に依存していることを認識してきました。現在のビデオ生成アプローチは、一般的な用途ではあるが無音の画像シーケンス生成に焦点を当てて音を無視するか、視覚と音声の両方の要素を扱うが、リダビングなどの限定された応用領域に焦点を当てています。本論文では、オーディオ入力からリアルで表現力豊かな出力画像をゼロから生成するのに優れた、オーディオからビデオへの基盤モデル「Mirage」を紹介します。音声合成(テキストから音声、またはTTS)の既存の手法と統合することで、Mirageは説得力のあるマルチモーダルビデオを実現します。人が話しているオーディオビデオ映像(Aロール)で訓練され、音声を含むオーディオを条件として与えると、Mirageは入力オーディオに含まれるパフォーマンスを信じられる形で解釈して話す人物のビデオを生成します。私たちの中核的な技術的貢献は、スクラッチから、または既存の重みを与えられた状態で、自己注意ベースのオーディオからビデオ生成モデルを訓練するための統一された方法です。この方法論により、Mirageはオーディオからビデオ生成へのアプローチとしての汎用性を維持しつつ、オーディオ固有のアーキテクチャや、人物、音声、または画像やオーディオの捕捉方法の詳細に特化した損失成分を組み込んだ手法よりも優れた主観的品質の出力を生成します。読者には、Mirageの結果を自ら視聴することをお勧めします(リンクは論文とコメントを参照)。
English
From professional filmmaking to user-generated content, creators and
consumers have long recognized that the power of video depends on the
harmonious integration of what we hear (the video's audio track) with what we
see (the video's image sequence). Current approaches to video generation either
ignore sound to focus on general-purpose but silent image sequence generation
or address both visual and audio elements but focus on restricted application
domains such as re-dubbing. We introduce Mirage, an audio-to-video foundation
model that excels at generating realistic, expressive output imagery from
scratch given an audio input. When integrated with existing methods for speech
synthesis (text-to-speech, or TTS), Mirage results in compelling multimodal
video. When trained on audio-video footage of people talking (A-roll) and
conditioned on audio containing speech, Mirage generates video of people
delivering a believable interpretation of the performance implicit in input
audio. Our central technical contribution is a unified method for training
self-attention-based audio-to-video generation models, either from scratch or
given existing weights. This methodology allows Mirage to retain generality as
an approach to audio-to-video generation while producing outputs of superior
subjective quality to methods that incorporate audio-specific architectures or
loss components specific to people, speech, or details of how images or audio
are captured. We encourage readers to watch and listen to the results of Mirage
for themselves (see paper and comments for links).