Modèles de diffusion de mouvement causal pour la génération de mouvement autorégressive
Causal Motion Diffusion Models for Autoregressive Motion Generation
February 26, 2026
Auteurs: Qing Yu, Akihisa Watanabe, Kent Fujiwara
cs.AI
Résumé
Les progrès récents des modèles de diffusion de mouvement ont considérablement amélioré le réalisme de la synthèse du mouvement humain. Cependant, les approches existantes reposent soit sur des modèles de diffusion bidirectionnels traitant des séquences complètes, ce qui limite la causalité temporelle et l'applicabilité en temps réel, soit sur des modèles autorégressifs qui souffrent d'instabilité et d'erreurs cumulatives. Dans ce travail, nous présentons les Modèles de Diffusion de Mouvement Causaux (MDMC), un cadre unifié pour la génération de mouvement autorégressive basé sur un transformeur de diffusion causal opérant dans un espace latent sémantiquement aligné. MDMC s'appuie sur un VAE Causal Aligné Mouvement-Langage (MAC-VAE), qui encode les séquences de mouvement en représentations latentes temporellement causales. Sur cette représentation latente, un transformeur de diffusion autorégressif est entraîné en utilisant un forçage de diffusion causal pour effectuer un débruitage temporellement ordonné à travers les images de mouvement. Pour parvenir à une inférence rapide, nous introduisons un plan d'échantillonnage image par image avec incertitude causale, où chaque image suivante est prédite à partir des images précédentes partiellement débruitées. Le cadre résultant prend en charge la génération de mouvement de haute qualité à partir de texte, la synthèse en flux continu et la génération de mouvement à long terme à des taux interactifs. Les expériences sur HumanML3D et SnapMoGen démontrent que MDMC surpasse les modèles de diffusion et autorégressifs existants à la fois en fidélité sémantique et en fluidité temporelle, tout en réduisant substantiellement la latence d'inférence.
English
Recent advances in motion diffusion models have substantially improved the realism of human motion synthesis. However, existing approaches either rely on full-sequence diffusion models with bidirectional generation, which limits temporal causality and real-time applicability, or autoregressive models that suffer from instability and cumulative errors. In this work, we present Causal Motion Diffusion Models (CMDM), a unified framework for autoregressive motion generation based on a causal diffusion transformer that operates in a semantically aligned latent space. CMDM builds upon a Motion-Language-Aligned Causal VAE (MAC-VAE), which encodes motion sequences into temporally causal latent representations. On top of this latent representation, an autoregressive diffusion transformer is trained using causal diffusion forcing to perform temporally ordered denoising across motion frames. To achieve fast inference, we introduce a frame-wise sampling schedule with causal uncertainty, where each subsequent frame is predicted from partially denoised previous frames. The resulting framework supports high-quality text-to-motion generation, streaming synthesis, and long-horizon motion generation at interactive rates. Experiments on HumanML3D and SnapMoGen demonstrate that CMDM outperforms existing diffusion and autoregressive models in both semantic fidelity and temporal smoothness, while substantially reducing inference latency.