MOVA: Op weg naar schaalbare en gesynchroniseerde video-audiogeneratie

Samenvatting

Audio is onmisbaar voor video in de praktijk, maar generatieve modellen hebben audiocomponenten grotendeels over het hoofd gezien. Huidige benaderingen voor het produceren van audiovisuele inhoud zijn vaak gebaseerd op cascade-pipelines, wat de kosten verhoogt, fouten cumuleert en de algehele kwaliteit aantast. Hoewel systemen zoals Veo 3 en Sora 2 de waarde van simultane generatie benadrukken, brengt gezamenlijke multimodale modellering unieke uitdagingen met zich mee op het gebied van architectuur, data en training. Bovendien beperkt de gesloten aard van bestaande systemen de vooruitgang in het veld. In dit werk introduceren we MOVA (MOSS Video and Audio), een open-source model dat in staat is tot het genereren van hoogwaardige, gesynchroniseerde audiovisuele inhoud, waaronder realistische lipgesynchroniseerde spraak, omgevingsbewuste geluidseffecten en inhoudsafgestemde muziek. MOVA maakt gebruik van een Mixture-of-Experts (MoE)-architectuur, met in totaal 32B parameters, waarvan 18B actief zijn tijdens inferentie. Het ondersteunt de IT2VA (Image-Text to Video-Audio) generatietaak. Door de modelgewichten en code vrij te geven, streven we ernaar onderzoek te bevorderen en een levendige gemeenschap van makers te stimuleren. De vrijgegeven codebase biedt uitgebreide ondersteuning voor efficiënte inferentie, LoRA fine-tuning en promptverbetering.

English

Audio is indispensable for real-world video, yet generation models have largely overlooked audio components. Current approaches to producing audio-visual content often rely on cascaded pipelines, which increase cost, accumulate errors, and degrade overall quality. While systems such as Veo 3 and Sora 2 emphasize the value of simultaneous generation, joint multimodal modeling introduces unique challenges in architecture, data, and training. Moreover, the closed-source nature of existing systems limits progress in the field. In this work, we introduce MOVA (MOSS Video and Audio), an open-source model capable of generating high-quality, synchronized audio-visual content, including realistic lip-synced speech, environment-aware sound effects, and content-aligned music. MOVA employs a Mixture-of-Experts (MoE) architecture, with a total of 32B parameters, of which 18B are active during inference. It supports IT2VA (Image-Text to Video-Audio) generation task. By releasing the model weights and code, we aim to advance research and foster a vibrant community of creators. The released codebase features comprehensive support for efficient inference, LoRA fine-tuning, and prompt enhancement.

MOVA: Op weg naar schaalbare en gesynchroniseerde video-audiogeneratie

MOVA: Towards Scalable and Synchronized Video-Audio Generation

Samenvatting

Support