ChatPaper.aiChatPaper

MOVA : Vers une génération vidéo-audio évolutive et synchronisée

MOVA: Towards Scalable and Synchronized Video-Audio Generation

February 9, 2026
papers.authors: SII-OpenMOSS Team, Donghua Yu, Mingshu Chen, Qi Chen, Qi Luo, Qianyi Wu, Qinyuan Cheng, Ruixiao Li, Tianyi Liang, Wenbo Zhang, Wenming Tu, Xiangyu Peng, Yang Gao, Yanru Huo, Ying Zhu, Yinze Luo, Yiyang Zhang, Yuerong Song, Zhe Xu, Zhiyu Zhang, Chenchen Yang, Cheng Chang, Chushu Zhou, Hanfu Chen, Hongnan Ma, Jiaxi Li, Jingqi Tong, Junxi Liu, Ke Chen, Shimin Li, Songlin Wang, Wei Jiang, Zhaoye Fei, Zhiyuan Ning, Chunguo Li, Chenhui Li, Ziwei He, Zengfeng Huang, Xie Chen, Xipeng Qiu
cs.AI

papers.abstract

L'audio est indispensable pour les vidéos du monde réel, mais les modèles de génération ont largement négligé les composants sonores. Les approches actuelles pour produire du contenu audiovisuel reposent souvent sur des pipelines en cascade, ce qui augmente les coûts, accumule les erreurs et dégrade la qualité globale. Alors que des systèmes tels que Veo 3 et Sora 2 soulignent la valeur de la génération simultanée, la modélisation multimodale conjointe introduit des défis uniques en matière d'architecture, de données et d'entraînement. De plus, la nature fermée des systèmes existants limite les progrès dans le domaine. Dans ce travail, nous présentons MOVA (MOSS Video and Audio), un modèle open-source capable de générer un contenu audiovisuel synchronisé de haute qualité, incluant des dialogues réalistes synchronisés sur les lèvres, des effets sonores conscients de l'environnement et une musique alignée sur le contenu. MOVA utilise une architecture Mixture-of-Experts (MoE) avec un total de 32 milliards de paramètres, dont 18 milliards sont actifs pendant l'inférence. Il prend en charge la tâche de génération IT2VA (Image-Text to Video-Audio). En publiant les poids du modèle et le code, nous visons à faire progresser la recherche et à favoriser une communauté dynamique de créateurs. Le codebase publié offre une prise en charge complète pour l'inférence efficace, le fine-tuning LoRA et l'amélioration des prompts.
English
Audio is indispensable for real-world video, yet generation models have largely overlooked audio components. Current approaches to producing audio-visual content often rely on cascaded pipelines, which increase cost, accumulate errors, and degrade overall quality. While systems such as Veo 3 and Sora 2 emphasize the value of simultaneous generation, joint multimodal modeling introduces unique challenges in architecture, data, and training. Moreover, the closed-source nature of existing systems limits progress in the field. In this work, we introduce MOVA (MOSS Video and Audio), an open-source model capable of generating high-quality, synchronized audio-visual content, including realistic lip-synced speech, environment-aware sound effects, and content-aligned music. MOVA employs a Mixture-of-Experts (MoE) architecture, with a total of 32B parameters, of which 18B are active during inference. It supports IT2VA (Image-Text to Video-Audio) generation task. By releasing the model weights and code, we aim to advance research and foster a vibrant community of creators. The released codebase features comprehensive support for efficient inference, LoRA fine-tuning, and prompt enhancement.
PDF1422February 11, 2026