Velocidade pela Simplicidade: Uma Arquitetura de Fluxo Único para um Modelo de Fundação Generativo Rápido de Áudio-Vídeo
Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model
March 23, 2026
Autores: SII-GAIR, Sand. ai, Ethan Chern, Hansi Teng, Hanwen Sun, Hao Wang, Hong Pan, Hongyu Jia, Jiadi Su, Jin Li, Junjie Yu, Lijie Liu, Lingzhi Li, Lyumanshan Ye, Min Hu, Qiangang Wang, Quanwei Qi, Steffi Chern, Tao Bu, Taoran Wang, Teren Xu, Tianning Zhang, Tiantian Mi, Weixian Xu, Wenqiang Zhang, Wentai Zhang, Xianping Yi, Xiaojie Cai, Xiaoyang Kang, Yan Ma, Yixiu Liu, Yunbo Zhang, Yunpeng Huang, Yutong Lin, Zewei Tao, Zhaoliang Liu, Zheng Zhang, Zhiyao Cen, Zhixuan Yu, Zhongshu Wang, Zhulin Hu, Zijin Zhou, Zinan Guo, Yue Cao, Pengfei Liu
cs.AI
Resumo
Apresentamos o daVinci-MagiHuman, um modelo de fundação generativo de áudio e vídeo de código aberto para geração centrada no ser humano. O daVinci-MagiHuman gera conjuntamente vídeo e áudio sincronizados utilizando um Transformer de fluxo único que processa texto, vídeo e áudio dentro de uma sequência unificada de tokens apenas por meio de auto-atenção. Este design de fluxo único evita a complexidade das arquiteturas de múltiplos fluxos ou de atenção cruzada, mantendo-se fácil de otimizar com infraestrutura padrão de treinamento e inferência. O modelo é particularmente forte em cenários centrados no ser humano, produzindo performance facial expressiva, coordenação natural entre fala e expressão, movimento corporal realista e sincronização áudio-vídeo precisa. Ele suporta geração de fala multilíngue em chinês (mandarim e cantonês), inglês, japonês, coreano, alemão e francês. Para inferência eficiente, combinamos a espinha dorsal de fluxo único com destilação de modelo, super-resolução em espaço latente e um decodificador Turbo VAE, permitindo a geração de um vídeo de 5 segundos em 256p em 2 segundos em uma única GPU H100. Na avaliação automática, o daVinci-MagiHuman alcança a mais alta qualidade visual e alinhamento textual entre os principais modelos abertos, juntamente com a menor taxa de erro de palavra (14,60%) para inteligibilidade de fala. Na avaliação humana pareada, ele alcança taxas de vitória de 80,0% contra o Ovi 1.1 e 60,9% contra o LTX 2.3 em mais de 2000 comparações. Disponibilizamos como código aberto a pilha completa do modelo, incluindo o modelo base, o modelo destilado, o modelo de super-resolução e o código de inferência.
English
We present daVinci-MagiHuman, an open-source audio-video generative foundation model for human-centric generation. daVinci-MagiHuman jointly generates synchronized video and audio using a single-stream Transformer that processes text, video, and audio within a unified token sequence via self-attention only. This single-stream design avoids the complexity of multi-stream or cross-attention architectures while remaining easy to optimize with standard training and inference infrastructure. The model is particularly strong in human-centric scenarios, producing expressive facial performance, natural speech-expression coordination, realistic body motion, and precise audio-video synchronization. It supports multilingual spoken generation across Chinese (Mandarin and Cantonese), English, Japanese, Korean, German, and French. For efficient inference, we combine the single-stream backbone with model distillation, latent-space super-resolution, and a Turbo VAE decoder, enabling generation of a 5-second 256p video in 2 seconds on a single H100 GPU. In automatic evaluation, daVinci-MagiHuman achieves the highest visual quality and text alignment among leading open models, along with the lowest word error rate (14.60%) for speech intelligibility. In pairwise human evaluation, it achieves win rates of 80.0% against Ovi 1.1 and 60.9% against LTX 2.3 over 2000 comparisons. We open-source the complete model stack, including the base model, the distilled model, the super-resolution model, and the inference codebase.