JUST-DUB-IT: Videodubbing mittels gemeinsamer audiovisueller Diffusion
JUST-DUB-IT: Video Dubbing via Joint Audio-Visual Diffusion
January 29, 2026
papers.authors: Anthony Chen, Naomi Ken Korem, Tavi Halperin, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Or Patashnik, Daniel Cohen-Or
cs.AI
papers.abstract
Audiovisuelle Basismodelle, die vortrainiert wurden, um Ton und visuelle Inhalte gemeinsam zu generieren, haben kürzlich eine beispiellose Fähigkeit zur Modellierung multimodaler Generierung und Bearbeitung gezeigt, wodurch neue Möglichkeiten für nachgelagerte Aufgaben eröffnet werden. Unter diesen Aufgaben könnte die Videosynchronisation besonders von solchen Vorwissen profitieren, doch die meisten bestehenden Lösungen basieren nach wie vor auf komplexen, aufgabenspezifischen Pipelines, die in realen Anwendungsszenarien an ihre Grenzen stoßen. In dieser Arbeit stellen wir einen Single-Model-Ansatz vor, der ein grundlegendes Audio-Video-Diffusionsmodell durch ein leichtgewichtiges LoRA für Video-zu-Video-Synchronisation adaptiert. Das LoRA ermöglicht es dem Modell, sich an einem Eingabe-Audio-Video zu orientieren und gleichzeitig übersetzten Audio sowie synchronisierte Gesichtsbewegungen zu generieren. Um dieses LoRA zu trainieren, nutzen wir das generative Modell selbst, um gepaarte mehrsprachige Videos derselben Sprecherperson zu synthetisieren. Konkret generieren wir mehrsprachige Videos mit Sprachwechseln innerhalb eines einzelnen Clips und rekonstruieren anschließend das Gesicht und den Audio in jeder Hälfte, um sie an die Sprache der anderen Hälfte anzupassen. Durch die Nutzung des reichen generativen Vorwissens des audiovisuellen Modells bewahrt unser Ansatz die Sprecheridentität und Lippensynchronisation und bleibt dabei robust gegenüber komplexen Bewegungen und realen Dynamiken. Wir demonstrieren, dass unser Ansatz hochwertige synchronisierte Videos mit verbesserter visueller Qualität, Lippensynchronisation und Robustheit im Vergleich zu bestehenden Synchronisationspipelines erzeugt.
English
Audio-Visual Foundation Models, which are pretrained to jointly generate sound and visual content, have recently shown an unprecedented ability to model multi-modal generation and editing, opening new opportunities for downstream tasks. Among these tasks, video dubbing could greatly benefit from such priors, yet most existing solutions still rely on complex, task-specific pipelines that struggle in real-world settings. In this work, we introduce a single-model approach that adapts a foundational audio-video diffusion model for video-to-video dubbing via a lightweight LoRA. The LoRA enables the model to condition on an input audio-video while jointly generating translated audio and synchronized facial motion. To train this LoRA, we leverage the generative model itself to synthesize paired multilingual videos of the same speaker. Specifically, we generate multilingual videos with language switches within a single clip, and then inpaint the face and audio in each half to match the language of the other half. By leveraging the rich generative prior of the audio-visual model, our approach preserves speaker identity and lip synchronization while remaining robust to complex motion and real-world dynamics. We demonstrate that our approach produces high-quality dubbed videos with improved visual fidelity, lip synchronization, and robustness compared to existing dubbing pipelines.