Geschwindigkeit durch Einfachheit: Eine Single-Stream-Architektur für schnelle Audio-Video-Generative-Foundation-Modelle

Zusammenfassung

Wir stellen daVinci-MagiHuman vor, ein quelloffenes audio-visuelles generatives Fundamentmodell für die menschenzentrierte Generierung. daVinci-MagiHuman erzeugt synchronisiertes Video und Audio gemeinsam mittels eines Single-Stream-Transformers, der Text, Video und Audio innerhalb einer vereinheitlichten Token-Sequenz ausschließlich über Self-Attention verarbeitet. Dieses Single-Stream-Design vermeidet die Komplexität von Multi-Stream- oder Cross-Attention-Architekturen und bleibt dabei einfach mit standardmäßiger Trainings- und Inferenz-Infrastruktur optimierbar. Das Modell ist besonders leistungsstark in menschenzentrierten Szenarien und erzeugt ausdrucksstarke Gesichtsanimationen, natürliche Koordination von Sprache und Ausdruck, realistische Körperbewegungen und präzise Audio-Video-Synchronisation. Es unterstützt mehrsprachige Sprachgenerierung in Chinesisch (Mandarin und Kantonesisch), Englisch, Japanisch, Koreanisch, Deutsch und Französisch. Für effiziente Inferenz kombinieren wir das Single-Stream-Backbone mit Modell-Distillation, Latent-Space-Superresolution und einem Turbo-VAE-Decoder, was die Generierung eines 5-Sekunden-256p-Videos in 2 Sekunden auf einer einzelnen H100-GPU ermöglicht. In der automatischen Evaluation erzielt daVinci-MagiHuman die höchste visuelle Qualität und Textübereinstimmung unter führenden Open-Source-Modellen sowie die niedrigste Wortfehlerrate (14,60 %) für Sprachverständlichkeit. In paarweisen humanen Evaluationen erzielt es bei 2000 Vergleichen Gewinnraten von 80,0 % gegen Ovi 1.1 und 60,9 % gegen LTX 2.3. Wir veröffentlichen den vollständigen Modell-Stack quelloffen, inklusive Basismodell, distilliertem Modell, Superresolution-Modell und Inferenz-Codebase.

English

We present daVinci-MagiHuman, an open-source audio-video generative foundation model for human-centric generation. daVinci-MagiHuman jointly generates synchronized video and audio using a single-stream Transformer that processes text, video, and audio within a unified token sequence via self-attention only. This single-stream design avoids the complexity of multi-stream or cross-attention architectures while remaining easy to optimize with standard training and inference infrastructure. The model is particularly strong in human-centric scenarios, producing expressive facial performance, natural speech-expression coordination, realistic body motion, and precise audio-video synchronization. It supports multilingual spoken generation across Chinese (Mandarin and Cantonese), English, Japanese, Korean, German, and French. For efficient inference, we combine the single-stream backbone with model distillation, latent-space super-resolution, and a Turbo VAE decoder, enabling generation of a 5-second 256p video in 2 seconds on a single H100 GPU. In automatic evaluation, daVinci-MagiHuman achieves the highest visual quality and text alignment among leading open models, along with the lowest word error rate (14.60%) for speech intelligibility. In pairwise human evaluation, it achieves win rates of 80.0% against Ovi 1.1 and 60.9% against LTX 2.3 over 2000 comparisons. We open-source the complete model stack, including the base model, the distilled model, the super-resolution model, and the inference codebase.

Geschwindigkeit durch Einfachheit: Eine Single-Stream-Architektur für schnelle Audio-Video-Generative-Foundation-Modelle

Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

Zusammenfassung

Support