Modelos de Difusión de Movimiento Causal para la Generación Autoregresiva de Movimiento
Causal Motion Diffusion Models for Autoregressive Motion Generation
February 26, 2026
Autores: Qing Yu, Akihisa Watanabe, Kent Fujiwara
cs.AI
Resumen
Los recientes avances en modelos de difusión de movimiento han mejorado sustancialmente el realismo de la síntesis de movimiento humano. Sin embargo, los enfoques existentes se basan en modelos de difusión de secuencia completa con generación bidireccional, lo que limita la causalidad temporal y la aplicabilidad en tiempo real, o en modelos autorregresivos que sufren de inestabilidad y errores acumulativos. En este trabajo, presentamos los Modelos de Difusión de Movimiento Causal (CMDM), un marco unificado para la generación autorregresiva de movimiento basado en un transformador de difusión causal que opera en un espacio latente semánticamente alineado. CMDM se construye sobre un VAE Causal Alineado con Lenguaje y Movimiento (MAC-VAE), que codifica secuencias de movimiento en representaciones latentes temporalmente causales. Sobre esta representación latente, se entrena un transformador de difusión autorregresivo utilizando forzado de difusión causal para realizar una eliminación de ruido ordenada temporalmente a través de los fotogramas de movimiento. Para lograr una inferencia rápida, introducimos un programa de muestreo por fotogramas con incertidumbre causal, donde cada fotograma subsiguiente se predice a partir de fotogramas anteriores parcialmente desruidos. El marco resultante admite la generación de movimiento a partir de texto de alta calidad, la síntesis en flujo continuo y la generación de movimiento a largo plazo a velocidades interactivas. Los experimentos en HumanML3D y SnapMoGen demuestran que CMDM supera a los modelos de difusión y autorregresivos existentes tanto en fidelidad semántica como en suavidad temporal, mientras reduce sustancialmente la latencia de inferencia.
English
Recent advances in motion diffusion models have substantially improved the realism of human motion synthesis. However, existing approaches either rely on full-sequence diffusion models with bidirectional generation, which limits temporal causality and real-time applicability, or autoregressive models that suffer from instability and cumulative errors. In this work, we present Causal Motion Diffusion Models (CMDM), a unified framework for autoregressive motion generation based on a causal diffusion transformer that operates in a semantically aligned latent space. CMDM builds upon a Motion-Language-Aligned Causal VAE (MAC-VAE), which encodes motion sequences into temporally causal latent representations. On top of this latent representation, an autoregressive diffusion transformer is trained using causal diffusion forcing to perform temporally ordered denoising across motion frames. To achieve fast inference, we introduce a frame-wise sampling schedule with causal uncertainty, where each subsequent frame is predicted from partially denoised previous frames. The resulting framework supports high-quality text-to-motion generation, streaming synthesis, and long-horizon motion generation at interactive rates. Experiments on HumanML3D and SnapMoGen demonstrate that CMDM outperforms existing diffusion and autoregressive models in both semantic fidelity and temporal smoothness, while substantially reducing inference latency.