ChatPaper.aiChatPaper

목소리를 보다: Mirage를 활용한 오디오 기반 A-롤 영상 생성

Seeing Voices: Generating A-Roll Video from Audio with Mirage

June 9, 2025
저자: Aditi Sundararaman, Amogh Adishesha, Andrew Jaegle, Dan Bigioi, Hyoung-Kyu Song, Jon Kyl, Justin Mao, Kevin Lan, Mojtaba Komeili, ShahRukh Athar, Sheila Babayan, Stanislau Beliasau, William Buchwalter
cs.AI

초록

프로페셔널 영화 제작부터 사용자 생성 콘텐츠에 이르기까지, 창작자와 소비자들은 오랫동안 비디오의 힘이 우리가 듣는 것(비디오의 오디오 트랙)과 우리가 보는 것(비디오의 이미지 시퀀스)의 조화로운 통합에 달려 있다는 것을 인식해 왔습니다. 현재의 비디오 생성 접근법은 일반적인 목적의 무음 이미지 시퀀스 생성에 초점을 맞추기 위해 소리를 무시하거나, 시각적 요소와 오디오 요소를 모두 다루지만 리더빙과 같은 제한된 응용 분야에 집중합니다. 우리는 오디오 입력을 기반으로 현실적이고 표현력 있는 출력 이미지를 처음부터 생성하는 데 탁월한 오디오-투-비디오 기반 모델인 Mirage를 소개합니다. Mirage는 음성 합성(텍스트-투-스피치, TTS)을 위한 기존 방법과 통합될 때 매력적인 멀티모달 비디오를 생성합니다. 사람들이 말하는 오디오-비디오 푸티지(A-롤)로 훈련되고 음성이 포함된 오디오를 조건으로 할 때, Mirage는 입력 오디오에 내재된 퍼포먼스를 믿을 만하게 해석하는 사람들의 비디오를 생성합니다. 우리의 핵심 기술적 기여는 처음부터 또는 기존 가중치를 기반으로 자기 주의 기반 오디오-투-비디오 생성 모델을 훈련하기 위한 통합 방법입니다. 이 방법론은 Mirage가 오디오-투-비디오 생성 접근법으로서의 일반성을 유지하면서도, 오디오 특화 아키텍처나 사람, 음성, 이미지 또는 오디오 캡처 방식의 세부 사항에 특화된 손실 구성 요소를 통합한 방법들보다 우수한 주관적 품질의 출력을 생성할 수 있게 합니다. 독자들이 Mirage의 결과를 직접 보고 들을 것을 권장합니다(논문과 댓글에서 링크 참조).
English
From professional filmmaking to user-generated content, creators and consumers have long recognized that the power of video depends on the harmonious integration of what we hear (the video's audio track) with what we see (the video's image sequence). Current approaches to video generation either ignore sound to focus on general-purpose but silent image sequence generation or address both visual and audio elements but focus on restricted application domains such as re-dubbing. We introduce Mirage, an audio-to-video foundation model that excels at generating realistic, expressive output imagery from scratch given an audio input. When integrated with existing methods for speech synthesis (text-to-speech, or TTS), Mirage results in compelling multimodal video. When trained on audio-video footage of people talking (A-roll) and conditioned on audio containing speech, Mirage generates video of people delivering a believable interpretation of the performance implicit in input audio. Our central technical contribution is a unified method for training self-attention-based audio-to-video generation models, either from scratch or given existing weights. This methodology allows Mirage to retain generality as an approach to audio-to-video generation while producing outputs of superior subjective quality to methods that incorporate audio-specific architectures or loss components specific to people, speech, or details of how images or audio are captured. We encourage readers to watch and listen to the results of Mirage for themselves (see paper and comments for links).
PDF222June 11, 2025