MOVA: Verso una generazione video-audio scalabile e sincronizzata

Abstract

L'audio è indispensabile per i video nel mondo reale, eppure i modelli di generazione hanno largamente trascurato le componenti audio. Gli approcci attuali per produrre contenuti audiovisivi si basano spesso su pipeline a cascata, che aumentano i costi, accumulano errori e degradano la qualità complessiva. Sebbene sistemi come Veo 3 e Sora 2 sottolineino il valore della generazione simultanea, la modellizzazione multimodale congiunta introduce sfide uniche nell'architettura, nei dati e nell'addestramento. Inoltre, la natura closed-source dei sistemi esistenti limita i progressi in questo campo. In questo lavoro, introduciamo MOVA (MOSS Video and Audio), un modello open-source in grado di generare contenuti audiovisivi sincronizzati di alta qualità, inclusi discorsi labiali realistici, effetti sonori consapevoli dell'ambiente e musica allineata al contenuto. MOVA utilizza un'architettura Mixture-of-Experts (MoE), con un totale di 32 miliardi di parametri, di cui 18 miliardi attivi durante l'inferenza. Supporta il task di generazione IT2VA (da Immagine-Testo a Video-Audio). Rilasciando i pesi del modello e il codice, miriamo a far avanzare la ricerca e a favorire una vivace comunità di creatori. Il codebase rilasciato offre un supporto completo per l'inferenza efficiente, il fine-tuning LoRA e il miglioramento dei prompt.

English

Audio is indispensable for real-world video, yet generation models have largely overlooked audio components. Current approaches to producing audio-visual content often rely on cascaded pipelines, which increase cost, accumulate errors, and degrade overall quality. While systems such as Veo 3 and Sora 2 emphasize the value of simultaneous generation, joint multimodal modeling introduces unique challenges in architecture, data, and training. Moreover, the closed-source nature of existing systems limits progress in the field. In this work, we introduce MOVA (MOSS Video and Audio), an open-source model capable of generating high-quality, synchronized audio-visual content, including realistic lip-synced speech, environment-aware sound effects, and content-aligned music. MOVA employs a Mixture-of-Experts (MoE) architecture, with a total of 32B parameters, of which 18B are active during inference. It supports IT2VA (Image-Text to Video-Audio) generation task. By releasing the model weights and code, we aim to advance research and foster a vibrant community of creators. The released codebase features comprehensive support for efficient inference, LoRA fine-tuning, and prompt enhancement.