JUST-DUB-IT: Дублирование видео с помощью совместной аудиовизуальной диффузии
JUST-DUB-IT: Video Dubbing via Joint Audio-Visual Diffusion
January 29, 2026
Авторы: Anthony Chen, Naomi Ken Korem, Tavi Halperin, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Or Patashnik, Daniel Cohen-Or
cs.AI
Аннотация
Аудиовизуальные базовые модели, предварительно обученные для совместного генерирования звукового и визуального контента, недавно продемонстрировали беспрецедентную способность моделировать мультимодальное создание и редактирование, открывая новые возможности для решения прикладных задач. Среди этих задач дублирование видео могло бы получить значительную выгоду от таких априорных знаний, однако большинство существующих решений по-прежнему полагаются на сложные, специализированные конвейеры, которые плохо справляются в реальных условиях. В данной работе мы представляем одно-модельный подход, адаптирующий базовую аудиовизуальную диффузионную модель для видео-к-видео дублирования с помощью легковесного LoRA. LoRA позволяет модели учитывать входные аудио- и видеоданные, одновременно генерируя переведенный звук и синхронизированную мимику лица. Для обучения этого LoRA мы используем саму генеративную модель для синтеза парных многоязычных видео одного и того же говорящего. В частности, мы генерируем многоязычные видео с переключением языка внутри одного клипа, а затем восстанавливаем лицо и звук в каждой половине, чтобы они соответствовали языку другой половины. Благодаря использованию богатых генеративных априорных знаний аудиовизуальной модели, наш подход сохраняет идентичность говорящего и синхронизацию губ, оставаясь устойчивым к сложному движению и реальной динамике. Мы демонстрируем, что наш подход создает высококачественные дублированные видео с улучшенной визуальной достоверностью, синхронизацией губ и надежностью по сравнению с существующими конвейерами дублирования.
English
Audio-Visual Foundation Models, which are pretrained to jointly generate sound and visual content, have recently shown an unprecedented ability to model multi-modal generation and editing, opening new opportunities for downstream tasks. Among these tasks, video dubbing could greatly benefit from such priors, yet most existing solutions still rely on complex, task-specific pipelines that struggle in real-world settings. In this work, we introduce a single-model approach that adapts a foundational audio-video diffusion model for video-to-video dubbing via a lightweight LoRA. The LoRA enables the model to condition on an input audio-video while jointly generating translated audio and synchronized facial motion. To train this LoRA, we leverage the generative model itself to synthesize paired multilingual videos of the same speaker. Specifically, we generate multilingual videos with language switches within a single clip, and then inpaint the face and audio in each half to match the language of the other half. By leveraging the rich generative prior of the audio-visual model, our approach preserves speaker identity and lip synchronization while remaining robust to complex motion and real-world dynamics. We demonstrate that our approach produces high-quality dubbed videos with improved visual fidelity, lip synchronization, and robustness compared to existing dubbing pipelines.