Modelos de Difusão de Movimento Causal para Geração Autoregressiva de Movimento
Causal Motion Diffusion Models for Autoregressive Motion Generation
February 26, 2026
Autores: Qing Yu, Akihisa Watanabe, Kent Fujiwara
cs.AI
Resumo
Os recentes avanços nos modelos de difusão de movimento melhoraram substancialmente o realismo da síntese de movimento humano. No entanto, as abordagens existentes dependem de modelos de difusão de sequência completa com geração bidirecional, o que limita a causalidade temporal e a aplicabilidade em tempo real, ou de modelos autorregressivos que sofrem com instabilidade e erros cumulativos. Neste trabalho, apresentamos os Modelos de Difusão de Movimento Causal (CMDM), uma estrutura unificada para geração autorregressiva de movimento baseada em um transformador de difusão causal que opera em um espaço latente semanticamente alinhado. O CMDM é construído sobre um Causal VAE Alinhado com Linguagem de Movimento (MAC-VAE), que codifica sequências de movimento em representações latentes temporalmente causais. Sobre esta representação latente, um transformador de difusão autorregressivo é treinado usando forçamento de difusão causal para realizar desruído ordenado temporalmente entre os quadros de movimento. Para alcançar inferência rápida, introduzimos um esquema de amostragem por quadro com incerteza causal, onde cada quadro subsequente é previsto a partir de quadros anteriores parcialmente desruídos. A estrutura resultante suporta geração de texto para movimento de alta qualidade, síntese em fluxo contínuo e geração de movimento de longo horizonte em taxas interativas. Experimentos no HumanML3D e SnapMoGen demonstram que o CMDM supera os modelos de difusão e autorregressivos existentes tanto em fidelidade semântica quanto em suavidade temporal, enquanto reduz substancialmente a latência de inferência.
English
Recent advances in motion diffusion models have substantially improved the realism of human motion synthesis. However, existing approaches either rely on full-sequence diffusion models with bidirectional generation, which limits temporal causality and real-time applicability, or autoregressive models that suffer from instability and cumulative errors. In this work, we present Causal Motion Diffusion Models (CMDM), a unified framework for autoregressive motion generation based on a causal diffusion transformer that operates in a semantically aligned latent space. CMDM builds upon a Motion-Language-Aligned Causal VAE (MAC-VAE), which encodes motion sequences into temporally causal latent representations. On top of this latent representation, an autoregressive diffusion transformer is trained using causal diffusion forcing to perform temporally ordered denoising across motion frames. To achieve fast inference, we introduce a frame-wise sampling schedule with causal uncertainty, where each subsequent frame is predicted from partially denoised previous frames. The resulting framework supports high-quality text-to-motion generation, streaming synthesis, and long-horizon motion generation at interactive rates. Experiments on HumanML3D and SnapMoGen demonstrate that CMDM outperforms existing diffusion and autoregressive models in both semantic fidelity and temporal smoothness, while substantially reducing inference latency.