인과적 운동 확산 모델을 이용한 자기회귀 운동 생성
Causal Motion Diffusion Models for Autoregressive Motion Generation
February 26, 2026
저자: Qing Yu, Akihisa Watanabe, Kent Fujiwara
cs.AI
초록
최근 모션 디퓨전 모델의 발전으로 인간 모션 합성의 현실감이 크게 향상되었습니다. 그러나 기존 접근법은 시간적 인과성과 실시간 적용성을 제한하는 양방향 생성 기반의 전체 시퀀스 디퓨전 모델에 의존하거나, 불안정성과 누적 오류 문제가 있는 자기회귀 모델에 의존하고 있습니다. 본 연구에서는 의미론적으로 정렬된 잠재 공간에서 작동하는 인과적 디퓨전 트랜스포머 기반의 통합 자기회귀 모션 생성 프레임워크인 CMDM(Causal Motion Diffusion Models)을 제안합니다. CMDM은 모션 시퀀스를 시간적으로 인과적인 잠재 표현으로 인코딩하는 Motion-Language-Aligned Causal VAE(MAC-VAE)를 기반으로 합니다. 이 잠재 표현 위에, 인과적 디퓨전 강화를 사용하여 모션 프레임 간 시간 순서대로 디노이징을 수행하는 자기회귀 디퓨전 트랜스포머가 학습됩니다. 빠른 추론을 위해 부분적으로 디노이즈된 이전 프레임으로부터 후속 프레임을 예측하는 인과적 불확실성을 고려한 프레임 단위 샘플링 스케줄을 도입합니다. 결과적인 프레임워크는 고품질 텍스트-모션 생성, 스트리밍 합성 및 상호작용 속도에서의 장기간 모션 생성을 지원합니다. HumanML3D 및 SnapMoGen에 대한 실험 결과, CMDM이 의미론적 정확도와 시간적 부드러움 모두에서 기존 디퓨전 및 자기회귀 모델을 능가하면서도 추론 지연 시간을 크게 단축하는 것으로 나타났습니다.
English
Recent advances in motion diffusion models have substantially improved the realism of human motion synthesis. However, existing approaches either rely on full-sequence diffusion models with bidirectional generation, which limits temporal causality and real-time applicability, or autoregressive models that suffer from instability and cumulative errors. In this work, we present Causal Motion Diffusion Models (CMDM), a unified framework for autoregressive motion generation based on a causal diffusion transformer that operates in a semantically aligned latent space. CMDM builds upon a Motion-Language-Aligned Causal VAE (MAC-VAE), which encodes motion sequences into temporally causal latent representations. On top of this latent representation, an autoregressive diffusion transformer is trained using causal diffusion forcing to perform temporally ordered denoising across motion frames. To achieve fast inference, we introduce a frame-wise sampling schedule with causal uncertainty, where each subsequent frame is predicted from partially denoised previous frames. The resulting framework supports high-quality text-to-motion generation, streaming synthesis, and long-horizon motion generation at interactive rates. Experiments on HumanML3D and SnapMoGen demonstrate that CMDM outperforms existing diffusion and autoregressive models in both semantic fidelity and temporal smoothness, while substantially reducing inference latency.