MIDAS : Synthèse interactive multimodale d’humains numériques via la génération vidéo autorégressive en temps réel
MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time Autoregressive Video Generation
August 26, 2025
papers.authors: Ming Chen, Liyuan Cui, Wenyuan Zhang, Haoxian Zhang, Yan Zhou, Xiaohan Li, Xiaoqiang Liu, Pengfei Wan
cs.AI
papers.abstract
Récemment, la génération interactive de vidéos d’humains numériques a suscité une attention considérable et a réalisé des progrès remarquables. Cependant, la construction d’un système pratique capable d’interagir avec des signaux d’entrée divers en temps réel reste un défi pour les méthodes existantes, qui peinent souvent avec une latence élevée, des coûts de calcul importants et une contrôlabilité limitée. Dans ce travail, nous introduisons un cadre de génération de vidéos autorégressif qui permet un contrôle multimodal interactif et une extrapolation à faible latence de manière continue. Avec des modifications minimales apportées à un modèle de langage de grande taille (LLM) standard, notre cadre accepte des encodages de conditions multimodales incluant l’audio, la pose et le texte, et produit des représentations spatialement et sémantiquement cohérentes pour guider le processus de débruitage d’une tête de diffusion. Pour soutenir cela, nous avons construit un ensemble de données de dialogue à grande échelle d’environ 20 000 heures provenant de multiples sources, offrant des scénarios conversationnels riches pour l’entraînement. Nous introduisons également un autoencodeur de compression profonde avec un taux de réduction allant jusqu’à 64 fois, qui atténue efficacement la charge d’inférence à long terme du modèle autorégressif. Des expériences approfondies sur la conversation duplex, la synthèse humaine multilingue et le modèle de monde interactif mettent en évidence les avantages de notre approche en termes de faible latence, de haute efficacité et de contrôlabilité multimodale fine.
English
Recently, interactive digital human video generation has attracted widespread
attention and achieved remarkable progress. However, building such a practical
system that can interact with diverse input signals in real time remains
challenging to existing methods, which often struggle with high latency, heavy
computational cost, and limited controllability. In this work, we introduce an
autoregressive video generation framework that enables interactive multimodal
control and low-latency extrapolation in a streaming manner. With minimal
modifications to a standard large language model (LLM), our framework accepts
multimodal condition encodings including audio, pose, and text, and outputs
spatially and semantically coherent representations to guide the denoising
process of a diffusion head. To support this, we construct a large-scale
dialogue dataset of approximately 20,000 hours from multiple sources, providing
rich conversational scenarios for training. We further introduce a deep
compression autoencoder with up to 64times reduction ratio, which
effectively alleviates the long-horizon inference burden of the autoregressive
model. Extensive experiments on duplex conversation, multilingual human
synthesis, and interactive world model highlight the advantages of our approach
in low latency, high efficiency, and fine-grained multimodal controllability.