Snelheid door Eenvoud: Een Single-Stream Architectuur voor een Snelle Audio-Video Generatief Fundament Model

Samenvatting

Wij presenteren daVinci-MagiHuman, een open-source audio-video generatief foundation model voor mensgerichte generatie. daVinci-MagiHuman genereert gezamenlijk gesynchroniseerde video en audio met behulp van een single-stream Transformer die tekst, video en audio verwerkt binnen een uniforme tokenreeks uitsluitend via self-attention. Dit single-stream ontwerp vermijdt de complexiteit van multi-stream of cross-attention architecturen en blijft tegelijkertijd eenvoudig te optimaliseren met standaard trainings- en inferentie-infrastructuur. Het model is bijzonder sterk in mensgerichte scenario's, waarbij het expressieve gezichtsuitdrukkingen, natuurlijke coördinatie tussen spraak en expressie, realistische lichaamsbeweging en precieze audio-video synchronisatie produceert. Het ondersteunt meertalige gesproken generatie in het Chinees (Mandarijn en Kantonees), Engels, Japans, Koreaans, Duits en Frans. Voor efficiënte inferentie combineren we de single-stream backbone met modeldistillatie, latent-space superresolutie en een Turbo VAE-decoder, waardoor een 5 seconden durende 256p video in 2 seconden gegenereerd kan worden op een enkele H100 GPU. In automatische evaluatie behaalt daVinci-MagiHuman de hoogste visuele kwaliteit en tekstalignering onder toonaangevende open modellen, samen met de laagste word error rate (14,60%) voor spraakverstaanbaarheid. In paarsgewijze humane evaluatie behaalt het winstpercentages van 80,0% tegen Ovi 1.1 en 60,9% tegen LTX 2.3 over 2000 vergelijkingen. Wij open-sourcen de complete modelstack, inclusief het basismodel, het gedistilleerde model, het superresolutiemodel en de inferentiecodebase.

English

We present daVinci-MagiHuman, an open-source audio-video generative foundation model for human-centric generation. daVinci-MagiHuman jointly generates synchronized video and audio using a single-stream Transformer that processes text, video, and audio within a unified token sequence via self-attention only. This single-stream design avoids the complexity of multi-stream or cross-attention architectures while remaining easy to optimize with standard training and inference infrastructure. The model is particularly strong in human-centric scenarios, producing expressive facial performance, natural speech-expression coordination, realistic body motion, and precise audio-video synchronization. It supports multilingual spoken generation across Chinese (Mandarin and Cantonese), English, Japanese, Korean, German, and French. For efficient inference, we combine the single-stream backbone with model distillation, latent-space super-resolution, and a Turbo VAE decoder, enabling generation of a 5-second 256p video in 2 seconds on a single H100 GPU. In automatic evaluation, daVinci-MagiHuman achieves the highest visual quality and text alignment among leading open models, along with the lowest word error rate (14.60%) for speech intelligibility. In pairwise human evaluation, it achieves win rates of 80.0% against Ovi 1.1 and 60.9% against LTX 2.3 over 2000 comparisons. We open-source the complete model stack, including the base model, the distilled model, the super-resolution model, and the inference codebase.

Snelheid door Eenvoud: Een Single-Stream Architectuur voor een Snelle Audio-Video Generatief Fundament Model

Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

Samenvatting

Support