MOVA: Rumo à Geração Escalável e Sincronizada de Vídeo e Áudio

Resumo

O áudio é indispensável para vídeos do mundo real, no entanto, os modelos de geração têm largamente negligenciado os componentes de áudio. As abordagens atuais para produzir conteúdo audiovisual frequentemente dependem de pipelines em cascata, o que aumenta o custo, acumula erros e degrada a qualidade geral. Embora sistemas como o Veo 3 e o Sora 2 enfatizem o valor da geração simultânea, a modelagem multimodal conjunta introduz desafios únicos em arquitetura, dados e treinamento. Além disso, a natureza de código fechado dos sistemas existentes limita o progresso na área. Neste trabalho, apresentamos o MOVA (MOSS Video and Audio), um modelo de código aberto capaz de gerar conteúdo audiovisual sincronizado de alta qualidade, incluindo discurso com sincronização labial realista, efeitos sonoros conscientes do ambiente e música alinhada com o conteúdo. O MOVA emprega uma arquitetura *Mixture-of-Experts* (MoE), com um total de 32B de parâmetros, dos quais 18B estão ativos durante a inferência. Ele suporta a tarefa de geração IT2VA (Imagem-Texto para Vídeo-Áudio). Ao liberar os pesos do modelo e o código, visamos avançar a pesquisa e fomentar uma comunidade vibrante de criadores. O código liberado possui suporte abrangente para inferência eficiente, *fine-tuning* LoRA e aprimoramento de *prompts*.

English

Audio is indispensable for real-world video, yet generation models have largely overlooked audio components. Current approaches to producing audio-visual content often rely on cascaded pipelines, which increase cost, accumulate errors, and degrade overall quality. While systems such as Veo 3 and Sora 2 emphasize the value of simultaneous generation, joint multimodal modeling introduces unique challenges in architecture, data, and training. Moreover, the closed-source nature of existing systems limits progress in the field. In this work, we introduce MOVA (MOSS Video and Audio), an open-source model capable of generating high-quality, synchronized audio-visual content, including realistic lip-synced speech, environment-aware sound effects, and content-aligned music. MOVA employs a Mixture-of-Experts (MoE) architecture, with a total of 32B parameters, of which 18B are active during inference. It supports IT2VA (Image-Text to Video-Audio) generation task. By releasing the model weights and code, we aim to advance research and foster a vibrant community of creators. The released codebase features comprehensive support for efficient inference, LoRA fine-tuning, and prompt enhancement.

MOVA: Rumo à Geração Escalável e Sincronizada de Vídeo e Áudio

MOVA: Towards Scalable and Synchronized Video-Audio Generation

Resumo

Support