ChatPaper.aiChatPaper

MOVA: スケーラブルで同期された映像-音声生成に向けて

MOVA: Towards Scalable and Synchronized Video-Audio Generation

February 9, 2026
著者: SII-OpenMOSS Team, Donghua Yu, Mingshu Chen, Qi Chen, Qi Luo, Qianyi Wu, Qinyuan Cheng, Ruixiao Li, Tianyi Liang, Wenbo Zhang, Wenming Tu, Xiangyu Peng, Yang Gao, Yanru Huo, Ying Zhu, Yinze Luo, Yiyang Zhang, Yuerong Song, Zhe Xu, Zhiyu Zhang, Chenchen Yang, Cheng Chang, Chushu Zhou, Hanfu Chen, Hongnan Ma, Jiaxi Li, Jingqi Tong, Junxi Liu, Ke Chen, Shimin Li, Songlin Wang, Wei Jiang, Zhaoye Fei, Zhiyuan Ning, Chunguo Li, Chenhui Li, Ziwei He, Zengfeng Huang, Xie Chen, Xipeng Qiu
cs.AI

要旨

音声は実世界のビデオにおいて不可欠であるにもかかわらず、生成モデルはこれまで音声コンポーネントを軽視してきた。現在の視聴覚コンテンツ生成手法は、カスケード型パイプラインに依存する場合が多く、コストの増加、誤差の累積、全体品質の低下を招いている。Veo 3やSora 2などのシステムが同時生成の価値を強調する一方で、マルチモーダル共同モデリングは、アーキテクチャ・データ・訓練において独自の課題を伴う。さらに、既存システムのクローズドソース性が分野の進展を制限している。本研究では、高品質で同期された視聴覚コンテンツ(現実的な唇同期音声、環境を考慮した効果音、コンテンツに連動した音楽を含む)を生成可能なオープンソースモデルMOVA(MOSS Video and Audio)を提案する。MOVAはMixture-of-Experts(MoE)アーキテクチャを採用し、総パラメータ数320億(推論時活性化180億)を有する。IT2VA(画像・テキストから映像・音声への生成)タスクをサポートし、モデル重みとコードを公開することで研究の促進と活発な創作コミュニティの形成を目指す。公開コードベースは、効率的な推論、LoRAファインチューニング、プロンプト拡張への包括的なサポートを特徴とする。
English
Audio is indispensable for real-world video, yet generation models have largely overlooked audio components. Current approaches to producing audio-visual content often rely on cascaded pipelines, which increase cost, accumulate errors, and degrade overall quality. While systems such as Veo 3 and Sora 2 emphasize the value of simultaneous generation, joint multimodal modeling introduces unique challenges in architecture, data, and training. Moreover, the closed-source nature of existing systems limits progress in the field. In this work, we introduce MOVA (MOSS Video and Audio), an open-source model capable of generating high-quality, synchronized audio-visual content, including realistic lip-synced speech, environment-aware sound effects, and content-aligned music. MOVA employs a Mixture-of-Experts (MoE) architecture, with a total of 32B parameters, of which 18B are active during inference. It supports IT2VA (Image-Text to Video-Audio) generation task. By releasing the model weights and code, we aim to advance research and foster a vibrant community of creators. The released codebase features comprehensive support for efficient inference, LoRA fine-tuning, and prompt enhancement.
PDF1422February 11, 2026