MotionStreamer: 인과적 잠재 공간에서의 확산 기반 자기회귀 모델을 통한 스트리밍 모션 생성
MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space
March 19, 2025
저자: Lixing Xiao, Shunlin Lu, Huaijin Pi, Ke Fan, Liang Pan, Yueer Zhou, Ziyong Feng, Xiaowei Zhou, Sida Peng, Jingbo Wang
cs.AI
초록
본 논문은 가변 길이의 과거 동작과 입력 텍스트를 기반으로 다음 단계의 인간 자세를 예측해야 하는 텍스트 조건부 스트리밍 동작 생성의 문제를 다룹니다. 기존 방법들은 스트리밍 동작 생성에 어려움을 겪고 있습니다. 예를 들어, 확산 모델은 사전 정의된 동작 길이에 제약을 받으며, GPT 기반 방법들은 이산화된 비인과적 토큰화로 인해 지연된 응답과 오류 누적 문제를 겪습니다. 이러한 문제를 해결하기 위해, 우리는 연속적인 인과적 잠재 공간을 확률적 자기회귀 모델에 통합한 새로운 프레임워크인 MotionStreamer를 제안합니다. 연속적인 잠재 변수는 이산화로 인한 정보 손실을 완화하고 장기적인 자기회귀 생성 동안 오류 누적을 효과적으로 줄입니다. 또한, 현재와 과거 동작 잠재 변수 간의 시간적 인과적 의존성을 설정함으로써, 우리의 모델은 사용 가능한 정보를 최대한 활용하여 정확한 온라인 동작 디코딩을 달성합니다. 실험 결과, 우리의 방법은 기존 접근법을 능가하며 다중 라운드 생성, 장기 생성, 동적 동작 구성 등 더 많은 응용 분야를 제공합니다. 프로젝트 페이지: https://zju3dv.github.io/MotionStreamer/
English
This paper addresses the challenge of text-conditioned streaming motion
generation, which requires us to predict the next-step human pose based on
variable-length historical motions and incoming texts. Existing methods
struggle to achieve streaming motion generation, e.g., diffusion models are
constrained by pre-defined motion lengths, while GPT-based methods suffer from
delayed response and error accumulation problem due to discretized non-causal
tokenization. To solve these problems, we propose MotionStreamer, a novel
framework that incorporates a continuous causal latent space into a
probabilistic autoregressive model. The continuous latents mitigate information
loss caused by discretization and effectively reduce error accumulation during
long-term autoregressive generation. In addition, by establishing temporal
causal dependencies between current and historical motion latents, our model
fully utilizes the available information to achieve accurate online motion
decoding. Experiments show that our method outperforms existing approaches
while offering more applications, including multi-round generation, long-term
generation, and dynamic motion composition. Project Page:
https://zju3dv.github.io/MotionStreamer/Summary
AI-Generated Summary