MIDAS: Síntese de Humanos Digitais Multimodais Interativos via Geração de Vídeo Autoregressivo em Tempo Real
MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time Autoregressive Video Generation
August 26, 2025
Autores: Ming Chen, Liyuan Cui, Wenyuan Zhang, Haoxian Zhang, Yan Zhou, Xiaohan Li, Xiaoqiang Liu, Pengfei Wan
cs.AI
Resumo
Recentemente, a geração de vídeos de humanos digitais interativos tem atraído ampla atenção e alcançado progressos notáveis. No entanto, a construção de um sistema prático que possa interagir com diversos sinais de entrada em tempo real continua sendo um desafio para os métodos existentes, que frequentemente enfrentam alta latência, custo computacional elevado e controlabilidade limitada. Neste trabalho, introduzimos um framework de geração de vídeos autoregressivo que permite controle multimodal interativo e extrapolação de baixa latência de forma contínua. Com modificações mínimas em um modelo de linguagem de grande escala (LLM) padrão, nosso framework aceita codificações de condições multimodais, incluindo áudio, pose e texto, e gera representações espacial e semanticamente coerentes para guiar o processo de remoção de ruído de um cabeçalho de difusão. Para suportar isso, construímos um grande conjunto de dados de diálogo de aproximadamente 20.000 horas a partir de múltiplas fontes, fornecendo cenários conversacionais ricos para treinamento. Além disso, introduzimos um autoencoder de compressão profunda com uma taxa de redução de até 64 vezes, que efetivamente alivia o fardo de inferência de longo horizonte do modelo autoregressivo. Experimentos extensivos em conversas duplex, síntese humana multilíngue e modelo de mundo interativo destacam as vantagens da nossa abordagem em termos de baixa latência, alta eficiência e controlabilidade multimodal de granularidade fina.
English
Recently, interactive digital human video generation has attracted widespread
attention and achieved remarkable progress. However, building such a practical
system that can interact with diverse input signals in real time remains
challenging to existing methods, which often struggle with high latency, heavy
computational cost, and limited controllability. In this work, we introduce an
autoregressive video generation framework that enables interactive multimodal
control and low-latency extrapolation in a streaming manner. With minimal
modifications to a standard large language model (LLM), our framework accepts
multimodal condition encodings including audio, pose, and text, and outputs
spatially and semantically coherent representations to guide the denoising
process of a diffusion head. To support this, we construct a large-scale
dialogue dataset of approximately 20,000 hours from multiple sources, providing
rich conversational scenarios for training. We further introduce a deep
compression autoencoder with up to 64times reduction ratio, which
effectively alleviates the long-horizon inference burden of the autoregressive
model. Extensive experiments on duplex conversation, multilingual human
synthesis, and interactive world model highlight the advantages of our approach
in low latency, high efficiency, and fine-grained multimodal controllability.