Kausale Bewegungsdiffusionsmodelle für autoregressive Bewegungsgenerierung
Causal Motion Diffusion Models for Autoregressive Motion Generation
February 26, 2026
Autoren: Qing Yu, Akihisa Watanabe, Kent Fujiwara
cs.AI
Zusammenfassung
Jüngste Fortschritte bei Bewegungsdiffusionsmodellen haben den Realismus der menschlichen Bewegungssynthese erheblich verbessert. Bisherige Ansätze basieren jedoch entweder auf bidirektionalen Vollsequenz-Diffusionsmodellen, die die zeitliche Kausalität und Echtzeitanwendbarkeit einschränken, oder auf autoregressiven Modellen, die unter Instabilität und kumulativen Fehlern leiden. In dieser Arbeit stellen wir Kausale Bewegungsdiffusionsmodelle (CMDM) vor, einen einheitlichen Rahmen für die autoregressive Bewegungsgenerierung auf Basis eines kausalen Diffusionstransformators, der in einem semantisch ausgerichteten latenten Raum operiert. CMDM baut auf einem sprachbasiert-kausalen VAE (MAC-VAE) auf, der Bewegungssequenzen in zeitlich kausale latente Repräsentationen kodiert. Auf dieser latenten Repräsentation wird ein autoregressiver Diffusionstransformator trainiert, der unter Verwendung kausaler Diffusionsforcierung eine zeitlich geordnete Entrauschung über Bewegungsframes hinweg durchführt. Um schnelle Inferenz zu ermöglichen, führen wir einen frame-basierten Sampling-Plan mit kausaler Unsicherheit ein, bei dem jeder nachfolgende Frame aus teilweise entrauschten vorherigen Frames vorhergesagt wird. Das resultierende Framework unterstützt hochwertige Text-zu-Bewegungs-Generierung, Streaming-Synthese und langfristige Bewegungsgenerierung in interaktiven Raten. Experimente auf HumanML3D und SnapMoGen zeigen, dass CMDM bestehende Diffusions- und autoregressive Modelle sowohl in semantischer Treue als auch zeitlicher Glätte übertrifft und dabei die Inferenzlatenz erheblich reduziert.
English
Recent advances in motion diffusion models have substantially improved the realism of human motion synthesis. However, existing approaches either rely on full-sequence diffusion models with bidirectional generation, which limits temporal causality and real-time applicability, or autoregressive models that suffer from instability and cumulative errors. In this work, we present Causal Motion Diffusion Models (CMDM), a unified framework for autoregressive motion generation based on a causal diffusion transformer that operates in a semantically aligned latent space. CMDM builds upon a Motion-Language-Aligned Causal VAE (MAC-VAE), which encodes motion sequences into temporally causal latent representations. On top of this latent representation, an autoregressive diffusion transformer is trained using causal diffusion forcing to perform temporally ordered denoising across motion frames. To achieve fast inference, we introduce a frame-wise sampling schedule with causal uncertainty, where each subsequent frame is predicted from partially denoised previous frames. The resulting framework supports high-quality text-to-motion generation, streaming synthesis, and long-horizon motion generation at interactive rates. Experiments on HumanML3D and SnapMoGen demonstrate that CMDM outperforms existing diffusion and autoregressive models in both semantic fidelity and temporal smoothness, while substantially reducing inference latency.