MIDAS: Síntese de Humanos Digitais Multimodais Interativos via Geração de Vídeo Autoregressivo em Tempo Real

Resumo

Recentemente, a geração de vídeos de humanos digitais interativos tem atraído ampla atenção e alcançado progressos notáveis. No entanto, a construção de um sistema prático que possa interagir com diversos sinais de entrada em tempo real continua sendo um desafio para os métodos existentes, que frequentemente enfrentam alta latência, custo computacional elevado e controlabilidade limitada. Neste trabalho, introduzimos um framework de geração de vídeos autoregressivo que permite controle multimodal interativo e extrapolação de baixa latência de forma contínua. Com modificações mínimas em um modelo de linguagem de grande escala (LLM) padrão, nosso framework aceita codificações de condições multimodais, incluindo áudio, pose e texto, e gera representações espacial e semanticamente coerentes para guiar o processo de remoção de ruído de um cabeçalho de difusão. Para suportar isso, construímos um grande conjunto de dados de diálogo de aproximadamente 20.000 horas a partir de múltiplas fontes, fornecendo cenários conversacionais ricos para treinamento. Além disso, introduzimos um autoencoder de compressão profunda com uma taxa de redução de até 64 vezes, que efetivamente alivia o fardo de inferência de longo horizonte do modelo autoregressivo. Experimentos extensivos em conversas duplex, síntese humana multilíngue e modelo de mundo interativo destacam as vantagens da nossa abordagem em termos de baixa latência, alta eficiência e controlabilidade multimodal de granularidade fina.

English

Recently, interactive digital human video generation has attracted widespread attention and achieved remarkable progress. However, building such a practical system that can interact with diverse input signals in real time remains challenging to existing methods, which often struggle with high latency, heavy computational cost, and limited controllability. In this work, we introduce an autoregressive video generation framework that enables interactive multimodal control and low-latency extrapolation in a streaming manner. With minimal modifications to a standard large language model (LLM), our framework accepts multimodal condition encodings including audio, pose, and text, and outputs spatially and semantically coherent representations to guide the denoising process of a diffusion head. To support this, we construct a large-scale dialogue dataset of approximately 20,000 hours from multiple sources, providing rich conversational scenarios for training. We further introduce a deep compression autoencoder with up to 64times reduction ratio, which effectively alleviates the long-horizon inference burden of the autoregressive model. Extensive experiments on duplex conversation, multilingual human synthesis, and interactive world model highlight the advantages of our approach in low latency, high efficiency, and fine-grained multimodal controllability.

MIDAS: Síntese de Humanos Digitais Multimodais Interativos via Geração de Vídeo Autoregressivo em Tempo Real

MIDAS: Multimodal Interactive Digital-human Synthesis via Real-time Autoregressive Video Generation

Resumo

Support