Modelli di Diffusione del Movimento Causale per la Generazione Autoregressiva del Movimento

Abstract

I recenti progressi nei modelli di diffusione del movimento hanno migliorato significativamente il realismo della sintesi del moto umano. Tuttavia, gli approcci esistenti si basano su modelli di diffusione a sequenza completa con generazione bidirezionale, che limita la causalità temporale e l'applicabilità in tempo reale, oppure su modelli autoregressivi che soffrono di instabilità ed errori cumulativi. In questo lavoro, presentiamo i Modelli di Diffusione Causale del Moto (CDCM), un framework unificato per la generazione di moto autoregressiva basato su un transformer di diffusione causale che opera in uno spazio latente semanticamente allineato. CDCM si basa su un VAE Causale con Allineamento Movimento-Linguaggio (MAC-VAE), che codifica sequenze di movimento in rappresentazioni latenti temporalmente causali. Su questa rappresentazione latente, un transformer di diffusione autoregressivo viene addestrato utilizzando il forcing di diffusione causale per eseguire una denoising ordinato temporalmente tra i frame di movimento. Per ottenere un'inferenza veloce, introduciamo una pianificazione di campionamento per frame con incertezza causale, in cui ogni frame successivo è predetto da frame precedenti parzialmente denoisati. Il framework risultante supporta la generazione di movimento da testo di alta qualità, la sintesi in streaming e la generazione di movimento a lungo termine a velocità interattive. Esperimenti su HumanML3D e SnapMoGen dimostrano che CDCM supera i modelli di diffusione e autoregressivi esistenti sia nella fedeltà semantica che nella fluidità temporale, riducendo sostanzialmente la latenza di inferenza.

English

Recent advances in motion diffusion models have substantially improved the realism of human motion synthesis. However, existing approaches either rely on full-sequence diffusion models with bidirectional generation, which limits temporal causality and real-time applicability, or autoregressive models that suffer from instability and cumulative errors. In this work, we present Causal Motion Diffusion Models (CMDM), a unified framework for autoregressive motion generation based on a causal diffusion transformer that operates in a semantically aligned latent space. CMDM builds upon a Motion-Language-Aligned Causal VAE (MAC-VAE), which encodes motion sequences into temporally causal latent representations. On top of this latent representation, an autoregressive diffusion transformer is trained using causal diffusion forcing to perform temporally ordered denoising across motion frames. To achieve fast inference, we introduce a frame-wise sampling schedule with causal uncertainty, where each subsequent frame is predicted from partially denoised previous frames. The resulting framework supports high-quality text-to-motion generation, streaming synthesis, and long-horizon motion generation at interactive rates. Experiments on HumanML3D and SnapMoGen demonstrate that CMDM outperforms existing diffusion and autoregressive models in both semantic fidelity and temporal smoothness, while substantially reducing inference latency.

Modelli di Diffusione del Movimento Causale per la Generazione Autoregressiva del Movimento

Causal Motion Diffusion Models for Autoregressive Motion Generation

Abstract

Support