ChatPaper.aiChatPaper

MOVA: Auf dem Weg zu skalierbarer und synchronisierter Video-Audio-Generierung

MOVA: Towards Scalable and Synchronized Video-Audio Generation

February 9, 2026
papers.authors: SII-OpenMOSS Team, Donghua Yu, Mingshu Chen, Qi Chen, Qi Luo, Qianyi Wu, Qinyuan Cheng, Ruixiao Li, Tianyi Liang, Wenbo Zhang, Wenming Tu, Xiangyu Peng, Yang Gao, Yanru Huo, Ying Zhu, Yinze Luo, Yiyang Zhang, Yuerong Song, Zhe Xu, Zhiyu Zhang, Chenchen Yang, Cheng Chang, Chushu Zhou, Hanfu Chen, Hongnan Ma, Jiaxi Li, Jingqi Tong, Junxi Liu, Ke Chen, Shimin Li, Songlin Wang, Wei Jiang, Zhaoye Fei, Zhiyuan Ning, Chunguo Li, Chenhui Li, Ziwei He, Zengfeng Huang, Xie Chen, Xipeng Qiu
cs.AI

papers.abstract

Audio ist für Videos in der realen Welt unverzichtbar, doch Generierungsmodelle haben Audiokomponenten weitgehend vernachlässigt. Aktuelle Ansätze zur Erzeugung audiovisueller Inhalte basieren häufig auf kaskadierten Pipelines, die Kosten erhöhen, Fehler akkumulieren und die Gesamtqualität beeinträchtigen. Während Systeme wie Veo 3 und Sora 2 den Wert simultaner Generierung betonen, bringt die gemeinsame multimodale Modellierung einzigartige Herausforderungen in Architektur, Daten und Training mit sich. Zudem hemmt die proprietäre Natur bestehender Systeme den Fortschritt auf diesem Gebiet. In dieser Arbeit stellen wir MOVA (MOSS Video and Audio) vor, ein Open-Source-Modell zur Generierung hochwertiger, synchronisierter audiovisueller Inhalte – inklusive realistischer lippensynchroner Sprache, kontextbewusster Soundeffekte und inhaltsbezogener Musik. MOVA nutzt eine Mixture-of-Experts-Architektur (MoE) mit insgesamt 32 Mrd. Parametern, von denen 18 Mrd. während des Inferenzvorgangs aktiv sind. Es unterstützt die IT2VA-Generierungsaufgabe (Image-Text to Video-Audio). Durch die Veröffentlichung der Modellgewichte und des Codes wollen wir die Forschung vorantreiben und eine lebendige Community von Entwicklern fördern. Die veröffentlichte Codebasis umfasst umfassende Unterstützung für effiziente Inferenz, LoRA-Finetuning und Prompt-Optimierung.
English
Audio is indispensable for real-world video, yet generation models have largely overlooked audio components. Current approaches to producing audio-visual content often rely on cascaded pipelines, which increase cost, accumulate errors, and degrade overall quality. While systems such as Veo 3 and Sora 2 emphasize the value of simultaneous generation, joint multimodal modeling introduces unique challenges in architecture, data, and training. Moreover, the closed-source nature of existing systems limits progress in the field. In this work, we introduce MOVA (MOSS Video and Audio), an open-source model capable of generating high-quality, synchronized audio-visual content, including realistic lip-synced speech, environment-aware sound effects, and content-aligned music. MOVA employs a Mixture-of-Experts (MoE) architecture, with a total of 32B parameters, of which 18B are active during inference. It supports IT2VA (Image-Text to Video-Audio) generation task. By releasing the model weights and code, we aim to advance research and foster a vibrant community of creators. The released codebase features comprehensive support for efficient inference, LoRA fine-tuning, and prompt enhancement.
PDF1422February 11, 2026