Velocidad mediante Simplicidad: Una Arquitectura Monoflujo para un Modelo Fundacional Generativo Rápido de Audio y Video

Resumen

Presentamos daVinci-MagiHuman, un modelo de base generativo de audio y vídeo de código abierto para la generación centrada en el ser humano. daVinci-MagiHuman genera conjuntamente vídeo y audio sincronizados utilizando un Transformer de flujo único que procesa texto, vídeo y audio dentro de una secuencia de tokens unificada mediante únicamente autoatención. Este diseño de flujo único evita la complejidad de las arquitecturas multistream o de atención cruzada, manteniéndose fácil de optimizar con infraestructura estándar de entrenamiento e inferencia. El modelo es especialmente potente en escenarios centrados en el ser humano, produciendo una actuación facial expresiva, una coordinación natural entre habla y expresión, movimientos corporales realistas y una sincronización audio-vídeo precisa. Soporta generación oral multilingüe en chino (mandarín y cantonés), inglés, japonés, coreano, alemán y francés. Para una inferencia eficiente, combinamos el backbone de flujo único con destilación de modelos, superresolución en espacio latente y un decodificador Turbo VAE, lo que permite generar un vídeo de 5 segundos a 256p en 2 segundos en una única GPU H100. En evaluación automática, daVinci-MagiHuman logra la mayor calidad visual y alineación textual entre los principales modelos abiertos, junto con la tasa de error de palabras más baja (14.60%) en inteligibilidad del habla. En evaluación humana por pares, alcanza tasas de victoria del 80.0% frente a Ovi 1.1 y del 60.9% frente a LTX 2.3 en más de 2000 comparaciones. Liberamos como código abierto la pila completa del modelo, incluyendo el modelo base, el modelo destilado, el modelo de superresolución y el código base de inferencia.

English

We present daVinci-MagiHuman, an open-source audio-video generative foundation model for human-centric generation. daVinci-MagiHuman jointly generates synchronized video and audio using a single-stream Transformer that processes text, video, and audio within a unified token sequence via self-attention only. This single-stream design avoids the complexity of multi-stream or cross-attention architectures while remaining easy to optimize with standard training and inference infrastructure. The model is particularly strong in human-centric scenarios, producing expressive facial performance, natural speech-expression coordination, realistic body motion, and precise audio-video synchronization. It supports multilingual spoken generation across Chinese (Mandarin and Cantonese), English, Japanese, Korean, German, and French. For efficient inference, we combine the single-stream backbone with model distillation, latent-space super-resolution, and a Turbo VAE decoder, enabling generation of a 5-second 256p video in 2 seconds on a single H100 GPU. In automatic evaluation, daVinci-MagiHuman achieves the highest visual quality and text alignment among leading open models, along with the lowest word error rate (14.60%) for speech intelligibility. In pairwise human evaluation, it achieves win rates of 80.0% against Ovi 1.1 and 60.9% against LTX 2.3 over 2000 comparisons. We open-source the complete model stack, including the base model, the distilled model, the super-resolution model, and the inference codebase.

Velocidad mediante Simplicidad: Una Arquitectura Monoflujo para un Modelo Fundacional Generativo Rápido de Audio y Video

Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

Resumen

Support