ChatPaper.aiChatPaper

MIDAS: Síntesis Multimodal de Humanos Digitales Interactivos mediante Generación Autoregresiva de Video en Tiempo Real

MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time Autoregressive Video Generation

August 26, 2025
Autores: Ming Chen, Liyuan Cui, Wenyuan Zhang, Haoxian Zhang, Yan Zhou, Xiaohan Li, Xiaoqiang Liu, Pengfei Wan
cs.AI

Resumen

Recientemente, la generación interactiva de videos de humanos digitales ha atraído una atención generalizada y ha logrado avances notables. Sin embargo, construir un sistema práctico que pueda interactuar con diversas señales de entrada en tiempo real sigue siendo un desafío para los métodos existentes, los cuales a menudo enfrentan problemas de alta latencia, costos computacionales elevados y una controlabilidad limitada. En este trabajo, presentamos un marco de generación de videos autorregresivo que permite un control multimodal interactivo y una extrapolación de baja latencia en un flujo continuo. Con modificaciones mínimas a un modelo de lenguaje grande (LLM) estándar, nuestro marco acepta codificaciones de condiciones multimodales que incluyen audio, pose y texto, y genera representaciones espacial y semánticamente coherentes para guiar el proceso de eliminación de ruido de una cabeza de difusión. Para respaldar esto, construimos un conjunto de datos de diálogo a gran escala de aproximadamente 20,000 horas provenientes de múltiples fuentes, proporcionando escenarios conversacionales ricos para el entrenamiento. Además, introducimos un autoencoder de compresión profunda con una relación de reducción de hasta 64 veces, lo que alivia eficazmente la carga de inferencia a largo plazo del modelo autorregresivo. Experimentos extensos en conversaciones dúplex, síntesis humana multilingüe y modelos de mundo interactivo destacan las ventajas de nuestro enfoque en términos de baja latencia, alta eficiencia y controlabilidad multimodal de grano fino.
English
Recently, interactive digital human video generation has attracted widespread attention and achieved remarkable progress. However, building such a practical system that can interact with diverse input signals in real time remains challenging to existing methods, which often struggle with high latency, heavy computational cost, and limited controllability. In this work, we introduce an autoregressive video generation framework that enables interactive multimodal control and low-latency extrapolation in a streaming manner. With minimal modifications to a standard large language model (LLM), our framework accepts multimodal condition encodings including audio, pose, and text, and outputs spatially and semantically coherent representations to guide the denoising process of a diffusion head. To support this, we construct a large-scale dialogue dataset of approximately 20,000 hours from multiple sources, providing rich conversational scenarios for training. We further introduce a deep compression autoencoder with up to 64times reduction ratio, which effectively alleviates the long-horizon inference burden of the autoregressive model. Extensive experiments on duplex conversation, multilingual human synthesis, and interactive world model highlight the advantages of our approach in low latency, high efficiency, and fine-grained multimodal controllability.
PDF273August 28, 2025