JUST-DUB-IT: Dublagem de Vídeo via Difusão Conjunta Áudio-Visual

Resumo

Os Modelos de Fundação Audiovisuais, pré-treinados para gerar conjuntamente som e conteúdo visual, demonstraram recentemente uma capacidade sem precedentes para modelar geração e edição multimodal, abrindo novas oportunidades para tarefas subsequentes. Entre essas tarefas, a dublagem de vídeos poderia se beneficiar muito desses conhecimentos prévios, porém a maioria das soluções existentes ainda depende de pipelines complexos e específicos para cada tarefa, que enfrentam dificuldades em cenários do mundo real. Neste trabalho, introduzimos uma abordagem de modelo único que adapta um modelo de difusão áudio-vídeo fundamental para dublagem vídeo-a-vídeo por meio de um LoRA leve. O LoRA permite que o modelo se condicione em um áudio-vídeo de entrada enquanto gera conjuntamente áudio traduzido e movimento facial sincronizado. Para treinar este LoRA, aproveitamos o próprio modelo generativo para sintetizar vídeos multilíngues pareados do mesmo locutor. Especificamente, geramos vídeos multilíngues com trocas de idioma dentro de um único clipe e, em seguida, reconstituímos o rosto e o áudio em cada metade para corresponder ao idioma da outra metade. Ao aproveitar a riqueza do conhecimento prévio generativo do modelo audiovisual, nossa abordagem preserva a identidade do locutor e a sincronização labial, mantendo-se robusta para movimentos complexos e dinâmicas do mundo real. Demonstramos que nossa abordagem produz vídeos dublados de alta qualidade com fidelidade visual aprimorada, sincronização labial e robustez superiores em comparação com os pipelines de dublagem existentes.

English

Audio-Visual Foundation Models, which are pretrained to jointly generate sound and visual content, have recently shown an unprecedented ability to model multi-modal generation and editing, opening new opportunities for downstream tasks. Among these tasks, video dubbing could greatly benefit from such priors, yet most existing solutions still rely on complex, task-specific pipelines that struggle in real-world settings. In this work, we introduce a single-model approach that adapts a foundational audio-video diffusion model for video-to-video dubbing via a lightweight LoRA. The LoRA enables the model to condition on an input audio-video while jointly generating translated audio and synchronized facial motion. To train this LoRA, we leverage the generative model itself to synthesize paired multilingual videos of the same speaker. Specifically, we generate multilingual videos with language switches within a single clip, and then inpaint the face and audio in each half to match the language of the other half. By leveraging the rich generative prior of the audio-visual model, our approach preserves speaker identity and lip synchronization while remaining robust to complex motion and real-world dynamics. We demonstrate that our approach produces high-quality dubbed videos with improved visual fidelity, lip synchronization, and robustness compared to existing dubbing pipelines.

JUST-DUB-IT: Dublagem de Vídeo via Difusão Conjunta Áudio-Visual

JUST-DUB-IT: Video Dubbing via Joint Audio-Visual Diffusion

Resumo

Support