ChatPaper.aiChatPaper

JUST-DUB-IT : Doublage vidéo par diffusion audio-visuelle conjointe

JUST-DUB-IT: Video Dubbing via Joint Audio-Visual Diffusion

January 29, 2026
papers.authors: Anthony Chen, Naomi Ken Korem, Tavi Halperin, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Or Patashnik, Daniel Cohen-Or
cs.AI

papers.abstract

Les modèles de fondation audio-visuels, pré-entraînés pour générer conjointement du contenu sonore et visuel, ont récemment démontré une capacité sans précédent à modéliser la génération et l'édition multimodales, ouvrant de nouvelles opportunités pour les tâches en aval. Parmi ces tâches, le doublage vidéo pourrait grandement bénéficier de tels modèles préalables, mais la plupart des solutions existantes reposent encore sur des pipelines complexes et spécifiques qui peinent dans des conditions réelles. Dans ce travail, nous présentons une approche à modèle unique qui adapte un modèle de diffusion audio-vidéo fondamental pour le doublage vidéo-à-vidéo via un LoRA léger. Le LoRA permet au modèle de se conditionner sur une entrée audio-vidéo tout en générant conjointement l'audio traduit et le mouvement facial synchronisé. Pour entraîner ce LoRA, nous exploitons le modèle génératif lui-même pour synthétiser des vidéos multilingues appariées du même locuteur. Concrètement, nous générons des vidéos multilingues avec des changements de langue au sein d'un même clip, puis nous restaurons le visage et l'audio dans chaque moitié pour correspondre à la langue de l'autre moitié. En tirant parti de la riche connaissance préalable générative du modèle audio-visuel, notre approche préserve l'identité du locuteur et la synchronisation labiale tout en restant robuste aux mouvements complexes et aux dynamiques du monde réel. Nous démontrons que notre approche produit des vidéos doublées de haute qualité avec une fidélité visuelle, une synchronisation labiale et une robustesse améliorées par rapport aux pipelines de doublage existants.
English
Audio-Visual Foundation Models, which are pretrained to jointly generate sound and visual content, have recently shown an unprecedented ability to model multi-modal generation and editing, opening new opportunities for downstream tasks. Among these tasks, video dubbing could greatly benefit from such priors, yet most existing solutions still rely on complex, task-specific pipelines that struggle in real-world settings. In this work, we introduce a single-model approach that adapts a foundational audio-video diffusion model for video-to-video dubbing via a lightweight LoRA. The LoRA enables the model to condition on an input audio-video while jointly generating translated audio and synchronized facial motion. To train this LoRA, we leverage the generative model itself to synthesize paired multilingual videos of the same speaker. Specifically, we generate multilingual videos with language switches within a single clip, and then inpaint the face and audio in each half to match the language of the other half. By leveraging the rich generative prior of the audio-visual model, our approach preserves speaker identity and lip synchronization while remaining robust to complex motion and real-world dynamics. We demonstrate that our approach produces high-quality dubbed videos with improved visual fidelity, lip synchronization, and robustness compared to existing dubbing pipelines.
PDF23January 31, 2026