ChatPaper.aiChatPaper

Velocità attraverso la Semplicità: un'Architettura Single-Stream per un Modello Base Generativo Audio-Video Rapido

Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

March 23, 2026
Autori: SII-GAIR, Sand. ai, Ethan Chern, Hansi Teng, Hanwen Sun, Hao Wang, Hong Pan, Hongyu Jia, Jiadi Su, Jin Li, Junjie Yu, Lijie Liu, Lingzhi Li, Lyumanshan Ye, Min Hu, Qiangang Wang, Quanwei Qi, Steffi Chern, Tao Bu, Taoran Wang, Teren Xu, Tianning Zhang, Tiantian Mi, Weixian Xu, Wenqiang Zhang, Wentai Zhang, Xianping Yi, Xiaojie Cai, Xiaoyang Kang, Yan Ma, Yixiu Liu, Yunbo Zhang, Yunpeng Huang, Yutong Lin, Zewei Tao, Zhaoliang Liu, Zheng Zhang, Zhiyao Cen, Zhixuan Yu, Zhongshu Wang, Zhulin Hu, Zijin Zhou, Zinan Guo, Yue Cao, Pengfei Liu
cs.AI

Abstract

Presentiamo daVinci-MagiHuman, un modello generativo fondazionale audio-video open-source per la generazione di contenuti incentrati sull'essere umano. daVinci-MagiHuman genera congiuntamente video e audio sincronizzati utilizzando un Transformer a flusso singolo che elabora testo, video e audio all'interno di una sequenza di token unificata, basandosi esclusivamente sul meccanismo di self-attention. Questa architettura a flusso singolo evita la complessità delle architetture multi-flusso o basate su cross-attention, rimanendo allo stesso tempo semplice da ottimizzare con infrastrutture standard di training e inferenza. Il modello è particolarmente efficace negli scenari incentrati sull'uomo, producendo performance facciali espressive, una coordinazione naturale tra eloquio ed espressione, movimenti corporei realistici e una sincronizzazione audio-video precisa. Supporta la generazione di parlato multilingue in cinese (mandarino e cantonese), inglese, giapponese, coreano, tedesco e francese. Per un'inferenza efficiente, combiniamo il backbone a flusso singolo con tecniche di distillazione del modello, super-risoluzione nello spazio latente e un decoder Turbo VAE, consentendo la generazione di un video da 5 secondi a 256p in 2 secondi su una singola GPU H100. Nella valutazione automatica, daVinci-MagiHuman raggiunge la più alta qualità visiva e allineamento al testo tra i principali modelli open, insieme al più basso tasso di errore sul riconoscimento delle parole (14.60%) per l'intelligibilità del parlato. In una valutazione umana a confronto diretto, ottiene tassi di preferenza dell'80.0% contro Ovi 1.1 e del 60.9% contro LTX 2.3 su 2000 confronti. Rilasciamo come open-source l'intero stack del modello, incluso il modello base, il modello distillato, il modello di super-risoluzione e il codebase per l'inferenza.
English
We present daVinci-MagiHuman, an open-source audio-video generative foundation model for human-centric generation. daVinci-MagiHuman jointly generates synchronized video and audio using a single-stream Transformer that processes text, video, and audio within a unified token sequence via self-attention only. This single-stream design avoids the complexity of multi-stream or cross-attention architectures while remaining easy to optimize with standard training and inference infrastructure. The model is particularly strong in human-centric scenarios, producing expressive facial performance, natural speech-expression coordination, realistic body motion, and precise audio-video synchronization. It supports multilingual spoken generation across Chinese (Mandarin and Cantonese), English, Japanese, Korean, German, and French. For efficient inference, we combine the single-stream backbone with model distillation, latent-space super-resolution, and a Turbo VAE decoder, enabling generation of a 5-second 256p video in 2 seconds on a single H100 GPU. In automatic evaluation, daVinci-MagiHuman achieves the highest visual quality and text alignment among leading open models, along with the lowest word error rate (14.60%) for speech intelligibility. In pairwise human evaluation, it achieves win rates of 80.0% against Ovi 1.1 and 60.9% against LTX 2.3 over 2000 comparisons. We open-source the complete model stack, including the base model, the distilled model, the super-resolution model, and the inference codebase.
PDF1175March 29, 2026