Конечно, вот перевод: **Диффузионные модели причинного движения для авторегрессионной генерации движений**
Causal Motion Diffusion Models for Autoregressive Motion Generation
February 26, 2026
Авторы: Qing Yu, Akihisa Watanabe, Kent Fujiwara
cs.AI
Аннотация
Последние достижения в области диффузионных моделей движения значительно повысили реалистичность синтеза человеческих движений. Однако существующие подходы либо опираются на двунаправленные диффузионные модели полных последовательностей, что ограничивает временную причинность и применимость в реальном времени, либо используют авторегрессионные модели, страдающие от нестабильности и накопления ошибок. В данной работе представлены Причинные Диффузионные Модели Движения (PDMD) — унифицированная框架 для авторегрессионной генерации движений на основе причинного диффузионного трансформера, работающего в семантически выровненном латентном пространстве. PDMD построена на основе Причинного VAE с выравниванием движения и языка (MAC-VAE), который кодирует последовательности движений в причинные латентные представления. Поверх этого латентного представления обучается авторегрессионный диффузионный трансформер с использованием причинного диффузионного форсинга для выполнения временно упорядоченного шумоподавления между кадрами движения. Для достижения быстрого вывода вводится покадровый план выборки с причинной неопределенностью, где каждый последующий кадр предсказывается по частично очищенным от шума предыдущим кадрам. Получившаяся框架 поддерживает генерацию движений по тексту высокого качества, потоковый синтез и генерацию длительных движений в интерактивном режиме. Эксперименты на HumanML3D и SnapMoGen демонстрируют, что PDMD превосходит существующие диффузионные и авторегрессионные модели как по семантической точности, так и по временной плавности, при этом существенно снижая задержку вывода.
English
Recent advances in motion diffusion models have substantially improved the realism of human motion synthesis. However, existing approaches either rely on full-sequence diffusion models with bidirectional generation, which limits temporal causality and real-time applicability, or autoregressive models that suffer from instability and cumulative errors. In this work, we present Causal Motion Diffusion Models (CMDM), a unified framework for autoregressive motion generation based on a causal diffusion transformer that operates in a semantically aligned latent space. CMDM builds upon a Motion-Language-Aligned Causal VAE (MAC-VAE), which encodes motion sequences into temporally causal latent representations. On top of this latent representation, an autoregressive diffusion transformer is trained using causal diffusion forcing to perform temporally ordered denoising across motion frames. To achieve fast inference, we introduce a frame-wise sampling schedule with causal uncertainty, where each subsequent frame is predicted from partially denoised previous frames. The resulting framework supports high-quality text-to-motion generation, streaming synthesis, and long-horizon motion generation at interactive rates. Experiments on HumanML3D and SnapMoGen demonstrate that CMDM outperforms existing diffusion and autoregressive models in both semantic fidelity and temporal smoothness, while substantially reducing inference latency.