ChatPaper.aiChatPaper

MOVA: 확장 가능하고 동기화된 비디오-오디오 생성 기술

MOVA: Towards Scalable and Synchronized Video-Audio Generation

February 9, 2026
저자: SII-OpenMOSS Team, Donghua Yu, Mingshu Chen, Qi Chen, Qi Luo, Qianyi Wu, Qinyuan Cheng, Ruixiao Li, Tianyi Liang, Wenbo Zhang, Wenming Tu, Xiangyu Peng, Yang Gao, Yanru Huo, Ying Zhu, Yinze Luo, Yiyang Zhang, Yuerong Song, Zhe Xu, Zhiyu Zhang, Chenchen Yang, Cheng Chang, Chushu Zhou, Hanfu Chen, Hongnan Ma, Jiaxi Li, Jingqi Tong, Junxi Liu, Ke Chen, Shimin Li, Songlin Wang, Wei Jiang, Zhaoye Fei, Zhiyuan Ning, Chunguo Li, Chenhui Li, Ziwei He, Zengfeng Huang, Xie Chen, Xipeng Qiu
cs.AI

초록

오디오는 현실 세계의 비디오에 필수적이지만, 생성 모델들은 대체로 오디오 구성 요소를 간과해 왔습니다. 오디오-비시각 콘텐츠를 생성하기 위한 현재의 접근법은 종종 캐스케이드 파이프라인에 의존하는데, 이는 비용을 증가시키고 오차를 누적시키며 전반적인 품질을 저하시킵니다. Veo 3 및 Sora 2와 같은 시스템들이 동시 생성을 강조하는 반면, 공동 다중모달 모델링은 아키텍처, 데이터, 훈련 측면에서 독특한 과제를 제기합니다. 더욱이, 기존 시스템들의 폐쇄형 특성은 해당 분야의 발전을 제한합니다. 본 연구에서는 현실적인 립싱크 음성, 환경을 인지한 음향 효과, 콘텐츠에 부합하는 음악을 포함한 고품질의 동기화된 오디오-비시각 콘텐츠를 생성할 수 있는 오픈소스 모델인 MOVA(MOSS Video and Audio)를 소개합니다. MOVA는 Total 32B 파라미터(추론 시 18B 활성)를 가진 Mixture-of-Experts(MoE) 아키텍처를 채택하며, IT2VA(Image-Text to Video-Audio) 생성 작업을 지원합니다. 모델 가중치와 코드를 공개함으로써, 우리는 연구를 촉진하고 활기찬 창작자 커뮤니티를 조성하는 것을 목표로 합니다. 공개된 코드베이스는 효율적인 추론, LoRA 미세 조정, 프롬프트 향상을 위한 포괄적인 지원 기능을 갖추고 있습니다.
English
Audio is indispensable for real-world video, yet generation models have largely overlooked audio components. Current approaches to producing audio-visual content often rely on cascaded pipelines, which increase cost, accumulate errors, and degrade overall quality. While systems such as Veo 3 and Sora 2 emphasize the value of simultaneous generation, joint multimodal modeling introduces unique challenges in architecture, data, and training. Moreover, the closed-source nature of existing systems limits progress in the field. In this work, we introduce MOVA (MOSS Video and Audio), an open-source model capable of generating high-quality, synchronized audio-visual content, including realistic lip-synced speech, environment-aware sound effects, and content-aligned music. MOVA employs a Mixture-of-Experts (MoE) architecture, with a total of 32B parameters, of which 18B are active during inference. It supports IT2VA (Image-Text to Video-Audio) generation task. By releasing the model weights and code, we aim to advance research and foster a vibrant community of creators. The released codebase features comprehensive support for efficient inference, LoRA fine-tuning, and prompt enhancement.
PDF1422February 11, 2026