Velocità attraverso la Semplicità: un'Architettura Single-Stream per un Modello Base Generativo Audio-Video Rapido

Abstract

Presentiamo daVinci-MagiHuman, un modello generativo fondazionale audio-video open-source per la generazione di contenuti incentrati sull'essere umano. daVinci-MagiHuman genera congiuntamente video e audio sincronizzati utilizzando un Transformer a flusso singolo che elabora testo, video e audio all'interno di una sequenza di token unificata, basandosi esclusivamente sul meccanismo di self-attention. Questa architettura a flusso singolo evita la complessità delle architetture multi-flusso o basate su cross-attention, rimanendo allo stesso tempo semplice da ottimizzare con infrastrutture standard di training e inferenza. Il modello è particolarmente efficace negli scenari incentrati sull'uomo, producendo performance facciali espressive, una coordinazione naturale tra eloquio ed espressione, movimenti corporei realistici e una sincronizzazione audio-video precisa. Supporta la generazione di parlato multilingue in cinese (mandarino e cantonese), inglese, giapponese, coreano, tedesco e francese. Per un'inferenza efficiente, combiniamo il backbone a flusso singolo con tecniche di distillazione del modello, super-risoluzione nello spazio latente e un decoder Turbo VAE, consentendo la generazione di un video da 5 secondi a 256p in 2 secondi su una singola GPU H100. Nella valutazione automatica, daVinci-MagiHuman raggiunge la più alta qualità visiva e allineamento al testo tra i principali modelli open, insieme al più basso tasso di errore sul riconoscimento delle parole (14.60%) per l'intelligibilità del parlato. In una valutazione umana a confronto diretto, ottiene tassi di preferenza dell'80.0% contro Ovi 1.1 e del 60.9% contro LTX 2.3 su 2000 confronti. Rilasciamo come open-source l'intero stack del modello, incluso il modello base, il modello distillato, il modello di super-risoluzione e il codebase per l'inferenza.

English

We present daVinci-MagiHuman, an open-source audio-video generative foundation model for human-centric generation. daVinci-MagiHuman jointly generates synchronized video and audio using a single-stream Transformer that processes text, video, and audio within a unified token sequence via self-attention only. This single-stream design avoids the complexity of multi-stream or cross-attention architectures while remaining easy to optimize with standard training and inference infrastructure. The model is particularly strong in human-centric scenarios, producing expressive facial performance, natural speech-expression coordination, realistic body motion, and precise audio-video synchronization. It supports multilingual spoken generation across Chinese (Mandarin and Cantonese), English, Japanese, Korean, German, and French. For efficient inference, we combine the single-stream backbone with model distillation, latent-space super-resolution, and a Turbo VAE decoder, enabling generation of a 5-second 256p video in 2 seconds on a single H100 GPU. In automatic evaluation, daVinci-MagiHuman achieves the highest visual quality and text alignment among leading open models, along with the lowest word error rate (14.60%) for speech intelligibility. In pairwise human evaluation, it achieves win rates of 80.0% against Ovi 1.1 and 60.9% against LTX 2.3 over 2000 comparisons. We open-source the complete model stack, including the base model, the distilled model, the super-resolution model, and the inference codebase.