JUST-DUB-IT: Doppiaggio Video tramite Diffusione Audio-Visiva Congiunta

Abstract

I modelli fondazionali audiovisivi, preaddestrati per generare congiuntamente contenuti sonori e visivi, hanno recentemente dimostrato una capacità senza precedenti nella modellazione della generazione e modifica multimodale, aprendo nuove opportunità per compiti downstream. Tra questi, il doppiaggio video potrebbe trarre grande vantaggio da tali conoscenze pregresse, eppure la maggior parte delle soluzioni esistenti si basa ancora su pipeline complesse e specifiche per il compito che faticano in scenari reali. In questo lavoro, introduciamo un approccio a modello singolo che adatta un modello diffusionale audiovisivo fondazionale per il doppiaggio video-to-video tramite un LoRA leggero. Il LoRA consente al modello di condizionarsi su un input audio-video generando simultaneamente audio tradotto e movimento facciale sincronizzato. Per addestrare questo LoRA, sfruttiamo il modello generativo stesso per sintetizzare video multilingue accoppiati dello stesso parlante. Nello specifico, generiamo video multilingue con cambi di lingua all'interno di una singola clip, per poi ricostruire il volto e l'audio in ciascuna metà per farli corrispondere alla lingua dell'altra metà. Sfruttando il ricco priore generativo del modello audiovisivo, il nostro approccio preserva l'identità del parlante e la sincronizzazione labiale mantenendo al contempo robustezza a movimenti complessi e dinamiche del mondo reale. Dimostriamo che il nostro approccio produce video doppiati di alta qualità con fedeltà visiva, sincronizzazione labiale e robustezza migliorate rispetto alle pipeline di doppiaggio esistenti.

English

Audio-Visual Foundation Models, which are pretrained to jointly generate sound and visual content, have recently shown an unprecedented ability to model multi-modal generation and editing, opening new opportunities for downstream tasks. Among these tasks, video dubbing could greatly benefit from such priors, yet most existing solutions still rely on complex, task-specific pipelines that struggle in real-world settings. In this work, we introduce a single-model approach that adapts a foundational audio-video diffusion model for video-to-video dubbing via a lightweight LoRA. The LoRA enables the model to condition on an input audio-video while jointly generating translated audio and synchronized facial motion. To train this LoRA, we leverage the generative model itself to synthesize paired multilingual videos of the same speaker. Specifically, we generate multilingual videos with language switches within a single clip, and then inpaint the face and audio in each half to match the language of the other half. By leveraging the rich generative prior of the audio-visual model, our approach preserves speaker identity and lip synchronization while remaining robust to complex motion and real-world dynamics. We demonstrate that our approach produces high-quality dubbed videos with improved visual fidelity, lip synchronization, and robustness compared to existing dubbing pipelines.

JUST-DUB-IT: Doppiaggio Video tramite Diffusione Audio-Visiva Congiunta

JUST-DUB-IT: Video Dubbing via Joint Audio-Visual Diffusion

Abstract

Support