MotionStreamer: 因果的潜在空間における拡散ベースの自己回帰モデルによるストリーミングモーション生成
MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space
March 19, 2025
著者: Lixing Xiao, Shunlin Lu, Huaijin Pi, Ke Fan, Liang Pan, Yueer Zhou, Ziyong Feng, Xiaowei Zhou, Sida Peng, Jingbo Wang
cs.AI
要旨
本論文は、テキスト条件付きストリーミングモーション生成の課題に取り組む。この課題では、可変長の過去のモーションと入力テキストに基づいて、次のステップの人間の姿勢を予測する必要がある。既存の手法はストリーミングモーション生成を実現するのに苦労しており、例えば、拡散モデルは事前に定義されたモーション長に制約され、GPTベースの手法は離散化された非因果的トークン化による応答遅延と誤差蓄積の問題に悩まされている。これらの問題を解決するため、我々はMotionStreamerを提案する。これは、連続的な因果的潜在空間を確率的自己回帰モデルに組み込んだ新しいフレームワークである。連続的な潜在変数は離散化による情報損失を軽減し、長期的な自己回帰生成における誤差蓄積を効果的に低減する。さらに、現在と過去のモーション潜在変数間に時間的な因果的依存関係を確立することで、我々のモデルは利用可能な情報を最大限に活用し、正確なオンラインモーションデコードを実現する。実験結果は、我々の手法が既存のアプローチを上回り、多段階生成、長期生成、動的モーション合成などのより多くの応用を提供することを示している。プロジェクトページ: https://zju3dv.github.io/MotionStreamer/
English
This paper addresses the challenge of text-conditioned streaming motion
generation, which requires us to predict the next-step human pose based on
variable-length historical motions and incoming texts. Existing methods
struggle to achieve streaming motion generation, e.g., diffusion models are
constrained by pre-defined motion lengths, while GPT-based methods suffer from
delayed response and error accumulation problem due to discretized non-causal
tokenization. To solve these problems, we propose MotionStreamer, a novel
framework that incorporates a continuous causal latent space into a
probabilistic autoregressive model. The continuous latents mitigate information
loss caused by discretization and effectively reduce error accumulation during
long-term autoregressive generation. In addition, by establishing temporal
causal dependencies between current and historical motion latents, our model
fully utilizes the available information to achieve accurate online motion
decoding. Experiments show that our method outperforms existing approaches
while offering more applications, including multi-round generation, long-term
generation, and dynamic motion composition. Project Page:
https://zju3dv.github.io/MotionStreamer/Summary
AI-Generated Summary