JUST-DUB-IT: Videodubbing via Gezamenlijke Audio-Visuele Diffusie
JUST-DUB-IT: Video Dubbing via Joint Audio-Visual Diffusion
January 29, 2026
Auteurs: Anthony Chen, Naomi Ken Korem, Tavi Halperin, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Or Patashnik, Daniel Cohen-Or
cs.AI
Samenvatting
Audiovisuele foundation-modellen, die vooraf zijn getraind om geluid en visuele inhoud gezamenlijk te genereren, hebben recent een ongekend vermogen getoond om multimodale generatie en bewerking te modelleren, wat nieuwe mogelijkheden opent voor downstreamtaken. Onder deze taken zou videonasynchronisatie sterk kunnen profiteren van dergelijke a priori kennis, maar de meeste bestaande oplossingen blijven afhankelijk van complexe, taakspecifieke pijplijnen die moeite hebben in realistische omgevingen. In dit werk introduceren we een enkelmodelbenadering die een foundation audiovisueel diffusiemodel aanpast voor video-naar-video nasynchronisatie via een lichtgewicht LoRA. De LoRA stelt het model in staat te conditioneren op een invoer van audio en video, terwijl het tegelijkertijd vertaalde audio en gesynchroniseerde gezichtsbewegingen genereert. Om deze LoRA te trainen, maken we gebruik van het generatieve model zelf om gepaarde meertalige video's van dezelfde spreker te synthetiseren. Specifiek genereren we meertalige video's met taalswitches binnen één clip, en vullen we vervolgens het gezicht en de audio in elke helft in om overeen te komen met de taal van de andere helft. Door gebruik te maken van de rijke generatieve a priori kennis van het audiovisuele model, behoudt onze aanpak de sprekersidentiteit en lipsynchronisatie, terwijl deze robuust blijft voor complexe bewegingen en realistische dynamiek. We tonen aan dat onze aanpak hoogwaardige nagesynchroniseerde video's produceert met verbeterde visuele kwaliteit, lipsynchronisatie en robuustheid in vergelijking met bestaande nasynchronisatiepijplijnen.
English
Audio-Visual Foundation Models, which are pretrained to jointly generate sound and visual content, have recently shown an unprecedented ability to model multi-modal generation and editing, opening new opportunities for downstream tasks. Among these tasks, video dubbing could greatly benefit from such priors, yet most existing solutions still rely on complex, task-specific pipelines that struggle in real-world settings. In this work, we introduce a single-model approach that adapts a foundational audio-video diffusion model for video-to-video dubbing via a lightweight LoRA. The LoRA enables the model to condition on an input audio-video while jointly generating translated audio and synchronized facial motion. To train this LoRA, we leverage the generative model itself to synthesize paired multilingual videos of the same speaker. Specifically, we generate multilingual videos with language switches within a single clip, and then inpaint the face and audio in each half to match the language of the other half. By leveraging the rich generative prior of the audio-visual model, our approach preserves speaker identity and lip synchronization while remaining robust to complex motion and real-world dynamics. We demonstrate that our approach produces high-quality dubbed videos with improved visual fidelity, lip synchronization, and robustness compared to existing dubbing pipelines.