ChatPaper.aiChatPaper

MOVA: Hacia una generación de video y audio escalable y sincronizada

MOVA: Towards Scalable and Synchronized Video-Audio Generation

February 9, 2026
Autores: SII-OpenMOSS Team, Donghua Yu, Mingshu Chen, Qi Chen, Qi Luo, Qianyi Wu, Qinyuan Cheng, Ruixiao Li, Tianyi Liang, Wenbo Zhang, Wenming Tu, Xiangyu Peng, Yang Gao, Yanru Huo, Ying Zhu, Yinze Luo, Yiyang Zhang, Yuerong Song, Zhe Xu, Zhiyu Zhang, Chenchen Yang, Cheng Chang, Chushu Zhou, Hanfu Chen, Hongnan Ma, Jiaxi Li, Jingqi Tong, Junxi Liu, Ke Chen, Shimin Li, Songlin Wang, Wei Jiang, Zhaoye Fei, Zhiyuan Ning, Chunguo Li, Chenhui Li, Ziwei He, Zengfeng Huang, Xie Chen, Xipeng Qiu
cs.AI

Resumen

El audio es indispensable para el vídeo del mundo real, sin embargo, los modelos de generación han pasado por alto en gran medida los componentes de audio. Los enfoques actuales para producir contenido audiovisual a menudo dependen de canalizaciones en cascada, lo que incrementa el coste, acumula errores y degrada la calidad general. Si bien sistemas como Veo 3 y Sora 2 enfatizan el valor de la generación simultánea, el modelado multimodal conjunto introduce desafíos únicos en arquitectura, datos y entrenamiento. Además, la naturaleza de código cerrado de los sistemas existentes limita el progreso en el campo. En este trabajo, presentamos MOVA (MOSS Video and Audio), un modelo de código abierto capaz de generar contenido audiovisual sincronizado de alta calidad, incluyendo habla realista con sincronización labial, efectos de sonido conscientes del entorno y música alineada con el contenido. MOVA emplea una arquitectura Mixture-of-Experts (MoE), con un total de 32B de parámetros, de los cuales 18B están activos durante la inferencia. Soporta la tarea de generación IT2VA (Texto-Imagen a Vídeo-Audio). Al liberar los pesos del modelo y el código, nuestro objetivo es impulsar la investigación y fomentar una comunidad vibrante de creadores. El código publicado cuenta con soporte integral para inferencia eficiente, ajuste fino con LoRA y mejora de prompts.
English
Audio is indispensable for real-world video, yet generation models have largely overlooked audio components. Current approaches to producing audio-visual content often rely on cascaded pipelines, which increase cost, accumulate errors, and degrade overall quality. While systems such as Veo 3 and Sora 2 emphasize the value of simultaneous generation, joint multimodal modeling introduces unique challenges in architecture, data, and training. Moreover, the closed-source nature of existing systems limits progress in the field. In this work, we introduce MOVA (MOSS Video and Audio), an open-source model capable of generating high-quality, synchronized audio-visual content, including realistic lip-synced speech, environment-aware sound effects, and content-aligned music. MOVA employs a Mixture-of-Experts (MoE) architecture, with a total of 32B parameters, of which 18B are active during inference. It supports IT2VA (Image-Text to Video-Audio) generation task. By releasing the model weights and code, we aim to advance research and foster a vibrant community of creators. The released codebase features comprehensive support for efficient inference, LoRA fine-tuning, and prompt enhancement.
PDF1422February 11, 2026