Vitesse par Simplicité : Une Architecture Monoflux pour un Modèle Fondamental Génératif Audio-Vidéo Rapide
Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model
March 23, 2026
Auteurs: SII-GAIR, Sand. ai, Ethan Chern, Hansi Teng, Hanwen Sun, Hao Wang, Hong Pan, Hongyu Jia, Jiadi Su, Jin Li, Junjie Yu, Lijie Liu, Lingzhi Li, Lyumanshan Ye, Min Hu, Qiangang Wang, Quanwei Qi, Steffi Chern, Tao Bu, Taoran Wang, Teren Xu, Tianning Zhang, Tiantian Mi, Weixian Xu, Wenqiang Zhang, Wentai Zhang, Xianping Yi, Xiaojie Cai, Xiaoyang Kang, Yan Ma, Yixiu Liu, Yunbo Zhang, Yunpeng Huang, Yutong Lin, Zewei Tao, Zhaoliang Liu, Zheng Zhang, Zhiyao Cen, Zhixuan Yu, Zhongshu Wang, Zhulin Hu, Zijin Zhou, Zinan Guo, Yue Cao, Pengfei Liu
cs.AI
Résumé
Nous présentons daVinci-MagiHuman, un modèle génératif audio-vidéo open-source de type fondation, spécialisé dans la génération de contenu centré sur l'humain. daVinci-MagiHuman génère conjointement une vidéo et un audio synchronisés en utilisant un Transformer à flux unique qui traite le texte, la vidéo et l'audio au sein d'une séquence de tokens unifiée via une architecture reposant uniquement sur l'auto-attention. Cette conception monolithique évite la complexité des architectures multi-flux ou à attention croisée tout en restant facile à optimiser avec une infrastructure d'entraînement et d'inférence standard. Le modèle est particulièrement performant dans les scénarios centrés sur l'humain, produisant des expressions faciales expressives, une coordination naturelle entre la parole et les expressions, des mouvements corporels réalistes et une synchronisation audio-vidéo précise. Il prend en charge la génération de parole multilingue en chinois (mandarin et cantonais), anglais, japonais, coréen, allemand et français. Pour une inférence efficace, nous combinons l'architecture à flux unique avec de la distillation de modèle, une super-résolution dans l'espace latent et un décodeur Turbo VAE, permettant la génération d'une vidéo de 5 secondes en résolution 256p en 2 secondes sur une seule GPU H100. Lors de l'évaluation automatique, daVinci-MagiHuman obtient la plus haute qualité visuelle et le meilleur alignement textuel parmi les principaux modèles open-source, ainsi que le taux d'erreur de mots le plus bas (14,60 %) pour l'intelligibilité de la parole. Dans une évaluation humaine par paires, il atteint des taux de victoire de 80,0 % contre Ovi 1.1 et 60,9 % contre LTX 2.3 sur 2000 comparaisons. Nous ouvrons en open-source la pile complète du modèle, incluant le modèle de base, le modèle distillé, le modèle de super-résolution et le codebase d'inférence.
English
We present daVinci-MagiHuman, an open-source audio-video generative foundation model for human-centric generation. daVinci-MagiHuman jointly generates synchronized video and audio using a single-stream Transformer that processes text, video, and audio within a unified token sequence via self-attention only. This single-stream design avoids the complexity of multi-stream or cross-attention architectures while remaining easy to optimize with standard training and inference infrastructure. The model is particularly strong in human-centric scenarios, producing expressive facial performance, natural speech-expression coordination, realistic body motion, and precise audio-video synchronization. It supports multilingual spoken generation across Chinese (Mandarin and Cantonese), English, Japanese, Korean, German, and French. For efficient inference, we combine the single-stream backbone with model distillation, latent-space super-resolution, and a Turbo VAE decoder, enabling generation of a 5-second 256p video in 2 seconds on a single H100 GPU. In automatic evaluation, daVinci-MagiHuman achieves the highest visual quality and text alignment among leading open models, along with the lowest word error rate (14.60%) for speech intelligibility. In pairwise human evaluation, it achieves win rates of 80.0% against Ovi 1.1 and 60.9% against LTX 2.3 over 2000 comparisons. We open-source the complete model stack, including the base model, the distilled model, the super-resolution model, and the inference codebase.