Velocidade pela Simplicidade: Uma Arquitetura de Fluxo Único para um Modelo de Fundação Generativo Rápido de Áudio-Vídeo

Resumo

Apresentamos o daVinci-MagiHuman, um modelo de fundação generativo de áudio e vídeo de código aberto para geração centrada no ser humano. O daVinci-MagiHuman gera conjuntamente vídeo e áudio sincronizados utilizando um Transformer de fluxo único que processa texto, vídeo e áudio dentro de uma sequência unificada de tokens apenas por meio de auto-atenção. Este design de fluxo único evita a complexidade das arquiteturas de múltiplos fluxos ou de atenção cruzada, mantendo-se fácil de otimizar com infraestrutura padrão de treinamento e inferência. O modelo é particularmente forte em cenários centrados no ser humano, produzindo performance facial expressiva, coordenação natural entre fala e expressão, movimento corporal realista e sincronização áudio-vídeo precisa. Ele suporta geração de fala multilíngue em chinês (mandarim e cantonês), inglês, japonês, coreano, alemão e francês. Para inferência eficiente, combinamos a espinha dorsal de fluxo único com destilação de modelo, super-resolução em espaço latente e um decodificador Turbo VAE, permitindo a geração de um vídeo de 5 segundos em 256p em 2 segundos em uma única GPU H100. Na avaliação automática, o daVinci-MagiHuman alcança a mais alta qualidade visual e alinhamento textual entre os principais modelos abertos, juntamente com a menor taxa de erro de palavra (14,60%) para inteligibilidade de fala. Na avaliação humana pareada, ele alcança taxas de vitória de 80,0% contra o Ovi 1.1 e 60,9% contra o LTX 2.3 em mais de 2000 comparações. Disponibilizamos como código aberto a pilha completa do modelo, incluindo o modelo base, o modelo destilado, o modelo de super-resolução e o código de inferência.

English

We present daVinci-MagiHuman, an open-source audio-video generative foundation model for human-centric generation. daVinci-MagiHuman jointly generates synchronized video and audio using a single-stream Transformer that processes text, video, and audio within a unified token sequence via self-attention only. This single-stream design avoids the complexity of multi-stream or cross-attention architectures while remaining easy to optimize with standard training and inference infrastructure. The model is particularly strong in human-centric scenarios, producing expressive facial performance, natural speech-expression coordination, realistic body motion, and precise audio-video synchronization. It supports multilingual spoken generation across Chinese (Mandarin and Cantonese), English, Japanese, Korean, German, and French. For efficient inference, we combine the single-stream backbone with model distillation, latent-space super-resolution, and a Turbo VAE decoder, enabling generation of a 5-second 256p video in 2 seconds on a single H100 GPU. In automatic evaluation, daVinci-MagiHuman achieves the highest visual quality and text alignment among leading open models, along with the lowest word error rate (14.60%) for speech intelligibility. In pairwise human evaluation, it achieves win rates of 80.0% against Ovi 1.1 and 60.9% against LTX 2.3 over 2000 comparisons. We open-source the complete model stack, including the base model, the distilled model, the super-resolution model, and the inference codebase.

Velocidade pela Simplicidade: Uma Arquitetura de Fluxo Único para um Modelo de Fundação Generativo Rápido de Áudio-Vídeo

Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

Resumo

Support