Скорость через простоту: однородная архитектура для быстрой генеративной базовой модели аудио-видео

Аннотация

Мы представляем daVinci-MagiHuman — открытую генеративную фреймворк-модель для работы с аудио и видео, ориентированную на создание контента с участием человека. daVinci-MagiHuman совместно генерирует синхронизированные видео и аудио, используя однопоточный трансформер, который обрабатывает текст, видео и аудио в рамках единой токенной последовательности исключительно с помощью self-attention. Эта однопоточная архитектура позволяет избежать сложностей многопоточных или cross-attention архитектур, оставаясь при этом простой для оптимизации с использованием стандартной инфраструктуры для обучения и вывода. Модель демонстрирует особую эффективность в сценариях с участием человека, создавая выразительную мимику лица, естественную координацию речи и выражения эмоций, реалистичные движения тела и точную синхронизацию аудио и видео. Она поддерживает многоязыковую речевую генерацию на китайском (мандаринский и кантонский диалекты), английском, японском, корейском, немецком и французском языках. Для эффективного вывода мы объединили однопоточный бэкбон с дистилляцией модели, супер-разрешением в латентном пространстве и Turbo VAE декодером, что позволяет генерировать 5-секундное видео с разрешением 256p за 2 секунды на одном GPU H100. При автоматической оценке daVinci-MagiHuman демонстрирует наивысшее качество визуала и соответствие тексту среди ведущих открытых моделей, а также наименьший процент ошибок распознавания слов (14.60%) для разборчивости речи. В попарном человеческом оценивании модель демонстрирует процент предпочтений в 80.0% против Ovi 1.1 и 60.9% против LTX 2.3 по результатам 2000 сравнений. Мы открываем полный стек модели, включая базовую модель, дистиллированную модель, модель для супер-разрешения и код для вывода.

English

We present daVinci-MagiHuman, an open-source audio-video generative foundation model for human-centric generation. daVinci-MagiHuman jointly generates synchronized video and audio using a single-stream Transformer that processes text, video, and audio within a unified token sequence via self-attention only. This single-stream design avoids the complexity of multi-stream or cross-attention architectures while remaining easy to optimize with standard training and inference infrastructure. The model is particularly strong in human-centric scenarios, producing expressive facial performance, natural speech-expression coordination, realistic body motion, and precise audio-video synchronization. It supports multilingual spoken generation across Chinese (Mandarin and Cantonese), English, Japanese, Korean, German, and French. For efficient inference, we combine the single-stream backbone with model distillation, latent-space super-resolution, and a Turbo VAE decoder, enabling generation of a 5-second 256p video in 2 seconds on a single H100 GPU. In automatic evaluation, daVinci-MagiHuman achieves the highest visual quality and text alignment among leading open models, along with the lowest word error rate (14.60%) for speech intelligibility. In pairwise human evaluation, it achieves win rates of 80.0% against Ovi 1.1 and 60.9% against LTX 2.3 over 2000 comparisons. We open-source the complete model stack, including the base model, the distilled model, the super-resolution model, and the inference codebase.

Скорость через простоту: однородная архитектура для быстрой генеративной базовой модели аудио-видео

Speed by Simplicity: A Single-Stream Architecture for Fast Audio-Video Generative Foundation Model

Аннотация

Support