ChatPaper.aiChatPaper

JUST-DUB-IT: 視聴覚融合拡散によるビデオ吹き替え

JUST-DUB-IT: Video Dubbing via Joint Audio-Visual Diffusion

January 29, 2026
著者: Anthony Chen, Naomi Ken Korem, Tavi Halperin, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Or Patashnik, Daniel Cohen-Or
cs.AI

要旨

音響視覚基盤モデルは、音声と視覚コンテンツを共同生成するように事前学習され、近年、マルチモーダルな生成と編集において前例のない能力を示し、下流タスクに新たな可能性を開いています。こうしたタスクの中でも、ビデオダビングはこのような事前知識から大きな恩恵を受ける可能性がありますが、既存のソリューションの多くは、実世界の設定に対応できない複雑なタスク固有のパイプラインに依存しています。本研究では、軽量なLoRAを介してビデオ間ダビングのために音響視覚拡散基盤モデルを適応させる単一モデルアプローチを提案します。このLoRAにより、モデルは入力された音声とビデオを条件として、翻訳された音声と同期した顔の動きを共同生成できます。このLoRAを訓練するために、生成モデル自体を活用して同一話者の多言語対応ビデオペアを合成します。具体的には、単一クリップ内で言語切り替えを行う多言語ビデオを生成し、各半分の顔と音声を、もう一方の半分の言語に一致するようにインペイントします。音響視覚モデルの豊かな生成事前知識を活用することで、本アプローチは複雑な動きや実世界のダイナミクスに対しても頑健でありながら、話者同一性と口唇同期を保持します。本アプローチが、既存のダビングパイプラインと比較して、視覚的忠実度、口唇同期、頑健性が改善された高品質なダビングビデオを生成することを実証します。
English
Audio-Visual Foundation Models, which are pretrained to jointly generate sound and visual content, have recently shown an unprecedented ability to model multi-modal generation and editing, opening new opportunities for downstream tasks. Among these tasks, video dubbing could greatly benefit from such priors, yet most existing solutions still rely on complex, task-specific pipelines that struggle in real-world settings. In this work, we introduce a single-model approach that adapts a foundational audio-video diffusion model for video-to-video dubbing via a lightweight LoRA. The LoRA enables the model to condition on an input audio-video while jointly generating translated audio and synchronized facial motion. To train this LoRA, we leverage the generative model itself to synthesize paired multilingual videos of the same speaker. Specifically, we generate multilingual videos with language switches within a single clip, and then inpaint the face and audio in each half to match the language of the other half. By leveraging the rich generative prior of the audio-visual model, our approach preserves speaker identity and lip synchronization while remaining robust to complex motion and real-world dynamics. We demonstrate that our approach produces high-quality dubbed videos with improved visual fidelity, lip synchronization, and robustness compared to existing dubbing pipelines.
PDF23January 31, 2026