JUST-DUB-IT: Doblaje de Video mediante Difusión Conjunta Audio-Visual
JUST-DUB-IT: Video Dubbing via Joint Audio-Visual Diffusion
January 29, 2026
Autores: Anthony Chen, Naomi Ken Korem, Tavi Halperin, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Or Patashnik, Daniel Cohen-Or
cs.AI
Resumen
Los Modelos Fundamentales Audiovisuales, preentrenados para generar conjuntamente sonido y contenido visual, han demostrado recientemente una capacidad sin precedentes para modelar la generación y edición multimodal, abriendo nuevas oportunidades para tareas posteriores. Entre estas tareas, el doblaje de vídeo podría beneficiarse enormemente de tales conocimientos previos; sin embargo, la mayoría de las soluciones existentes aún dependen de pipelines complejos y específicos que tienen dificultades en entornos del mundo real. En este trabajo, presentamos un enfoque de modelo único que adapta un modelo de difusión audiovisual fundamental para el doblaje de vídeo a vídeo mediante un LoRA ligero. El LoRA permite al modelo condicionarse en un audio-vídeo de entrada mientras genera conjuntamente audio traducido y movimiento facial sincronizado. Para entrenar este LoRA, aprovechamos el propio modelo generativo para sintetizar vídeos multilingües emparejados de un mismo locutor. Específicamente, generamos vídeos multilingües con cambios de idioma dentro de un mismo clip, y luego reconstruimos el rostro y el audio en cada mitad para que coincida con el idioma de la otra mitad. Al aprovechar la rica capacidad generativa previa del modelo audiovisual, nuestro enfoque preserva la identidad del locutor y la sincronización labial, manteniéndose robusto ante movimientos complejos y dinámicas del mundo real. Demostramos que nuestro enfoque produce vídeos doblados de alta calidad con una fidelidad visual, sincronización labial y robustez mejoradas en comparación con los pipelines de doblaje existentes.
English
Audio-Visual Foundation Models, which are pretrained to jointly generate sound and visual content, have recently shown an unprecedented ability to model multi-modal generation and editing, opening new opportunities for downstream tasks. Among these tasks, video dubbing could greatly benefit from such priors, yet most existing solutions still rely on complex, task-specific pipelines that struggle in real-world settings. In this work, we introduce a single-model approach that adapts a foundational audio-video diffusion model for video-to-video dubbing via a lightweight LoRA. The LoRA enables the model to condition on an input audio-video while jointly generating translated audio and synchronized facial motion. To train this LoRA, we leverage the generative model itself to synthesize paired multilingual videos of the same speaker. Specifically, we generate multilingual videos with language switches within a single clip, and then inpaint the face and audio in each half to match the language of the other half. By leveraging the rich generative prior of the audio-visual model, our approach preserves speaker identity and lip synchronization while remaining robust to complex motion and real-world dynamics. We demonstrate that our approach produces high-quality dubbed videos with improved visual fidelity, lip synchronization, and robustness compared to existing dubbing pipelines.