MOVA: Verso una generazione video-audio scalabile e sincronizzata
MOVA: Towards Scalable and Synchronized Video-Audio Generation
February 9, 2026
Autori: SII-OpenMOSS Team, Donghua Yu, Mingshu Chen, Qi Chen, Qi Luo, Qianyi Wu, Qinyuan Cheng, Ruixiao Li, Tianyi Liang, Wenbo Zhang, Wenming Tu, Xiangyu Peng, Yang Gao, Yanru Huo, Ying Zhu, Yinze Luo, Yiyang Zhang, Yuerong Song, Zhe Xu, Zhiyu Zhang, Chenchen Yang, Cheng Chang, Chushu Zhou, Hanfu Chen, Hongnan Ma, Jiaxi Li, Jingqi Tong, Junxi Liu, Ke Chen, Shimin Li, Songlin Wang, Wei Jiang, Zhaoye Fei, Zhiyuan Ning, Chunguo Li, Chenhui Li, Ziwei He, Zengfeng Huang, Xie Chen, Xipeng Qiu
cs.AI
Abstract
L'audio è indispensabile per i video nel mondo reale, eppure i modelli di generazione hanno largamente trascurato le componenti audio. Gli approcci attuali per produrre contenuti audiovisivi si basano spesso su pipeline a cascata, che aumentano i costi, accumulano errori e degradano la qualità complessiva. Sebbene sistemi come Veo 3 e Sora 2 sottolineino il valore della generazione simultanea, la modellizzazione multimodale congiunta introduce sfide uniche nell'architettura, nei dati e nell'addestramento. Inoltre, la natura closed-source dei sistemi esistenti limita i progressi in questo campo. In questo lavoro, introduciamo MOVA (MOSS Video and Audio), un modello open-source in grado di generare contenuti audiovisivi sincronizzati di alta qualità, inclusi discorsi labiali realistici, effetti sonori consapevoli dell'ambiente e musica allineata al contenuto. MOVA utilizza un'architettura Mixture-of-Experts (MoE), con un totale di 32 miliardi di parametri, di cui 18 miliardi attivi durante l'inferenza. Supporta il task di generazione IT2VA (da Immagine-Testo a Video-Audio). Rilasciando i pesi del modello e il codice, miriamo a far avanzare la ricerca e a favorire una vivace comunità di creatori. Il codebase rilasciato offre un supporto completo per l'inferenza efficiente, il fine-tuning LoRA e il miglioramento dei prompt.
English
Audio is indispensable for real-world video, yet generation models have largely overlooked audio components. Current approaches to producing audio-visual content often rely on cascaded pipelines, which increase cost, accumulate errors, and degrade overall quality. While systems such as Veo 3 and Sora 2 emphasize the value of simultaneous generation, joint multimodal modeling introduces unique challenges in architecture, data, and training. Moreover, the closed-source nature of existing systems limits progress in the field. In this work, we introduce MOVA (MOSS Video and Audio), an open-source model capable of generating high-quality, synchronized audio-visual content, including realistic lip-synced speech, environment-aware sound effects, and content-aligned music. MOVA employs a Mixture-of-Experts (MoE) architecture, with a total of 32B parameters, of which 18B are active during inference. It supports IT2VA (Image-Text to Video-Audio) generation task. By releasing the model weights and code, we aim to advance research and foster a vibrant community of creators. The released codebase features comprehensive support for efficient inference, LoRA fine-tuning, and prompt enhancement.