JUST-DUB-IT: 공동 오디오-비주얼 확산을 통한 비디오 더빙
JUST-DUB-IT: Video Dubbing via Joint Audio-Visual Diffusion
January 29, 2026
저자: Anthony Chen, Naomi Ken Korem, Tavi Halperin, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Or Patashnik, Daniel Cohen-Or
cs.AI
초록
오디오와 시각 콘텐츠를 함께 생성하도록 사전 학습된 오디오-비주얼 파운데이션 모델은 최근 멀티모달 생성 및 편집을 모델링하는 전례 없는 능력을 보여주며 다운스트림 작업에 새로운 기회를 열었습니다. 이러한 작업 중 하나인 비디오 더빙은 이러한 사전 지식으로부터 큰 이점을 얻을 수 있지만, 대부분의 기존 솔루션은 실제 환경에서 어려움을 겪는 복잡하고 작업별로 특화된 파이프라인에 여전히 의존하고 있습니다. 본 연구에서는 경량 LoRA를 통해 비디오 간 더빙을 위해 기본 오디오-비디오 확산 모델을 적용하는 단일 모델 접근법을 소개합니다. 이 LoRA는 모델이 입력 오디오-비디오를 조건으로 삼아 번역된 오디오와 동기화된 얼굴 움직임을 함께 생성할 수 있게 합니다. 이 LoRA를 학습시키기 위해 생성 모델 자체를 활용하여 동일한 화자의 다국어 페어 비디오를 합성합니다. 구체적으로, 단일 클립 내에서 언어 전환이 이루어진 다국어 비디오를 생성한 후, 각 절반에서 얼굴과 오디오를 인페인팅하여 다른 절반의 언어와 일치하도록 합니다. 오디오-비주얼 모델의 풍부한 생성 사전 지식을 활용함으로써, 우리의 접근법은 화자 식별성과 입 모양 동기화를 유지하면서도 복잡한 움직임과 실제 세계의 역동성에 강건하게 대응합니다. 우리는 제안된 방법이 기존 더빙 파이프라인 대비 향상된 시각적 충실도, 입 모양 동기화 및 강건성을 갖춘 고품질 더빙 비디오를 생성함을 입증합니다.
English
Audio-Visual Foundation Models, which are pretrained to jointly generate sound and visual content, have recently shown an unprecedented ability to model multi-modal generation and editing, opening new opportunities for downstream tasks. Among these tasks, video dubbing could greatly benefit from such priors, yet most existing solutions still rely on complex, task-specific pipelines that struggle in real-world settings. In this work, we introduce a single-model approach that adapts a foundational audio-video diffusion model for video-to-video dubbing via a lightweight LoRA. The LoRA enables the model to condition on an input audio-video while jointly generating translated audio and synchronized facial motion. To train this LoRA, we leverage the generative model itself to synthesize paired multilingual videos of the same speaker. Specifically, we generate multilingual videos with language switches within a single clip, and then inpaint the face and audio in each half to match the language of the other half. By leveraging the rich generative prior of the audio-visual model, our approach preserves speaker identity and lip synchronization while remaining robust to complex motion and real-world dynamics. We demonstrate that our approach produces high-quality dubbed videos with improved visual fidelity, lip synchronization, and robustness compared to existing dubbing pipelines.