ChatPaper.aiChatPaper

MotionStreamer : Génération de mouvements en streaming via un modèle autorégressif basé sur la diffusion dans un espace latent causal

MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space

March 19, 2025
Auteurs: Lixing Xiao, Shunlin Lu, Huaijin Pi, Ke Fan, Liang Pan, Yueer Zhou, Ziyong Feng, Xiaowei Zhou, Sida Peng, Jingbo Wang
cs.AI

Résumé

Cet article aborde le défi de la génération de mouvements en flux continu conditionnée par du texte, qui nécessite de prédire la posture humaine à l'étape suivante en se basant sur des mouvements historiques de longueur variable et des textes entrants. Les méthodes existantes peinent à réaliser une génération de mouvements en flux continu : par exemple, les modèles de diffusion sont limités par des longueurs de mouvements prédéfinies, tandis que les méthodes basées sur GPT souffrent d'un retard de réponse et d'une accumulation d'erreurs dues à une tokenisation discrète non causale. Pour résoudre ces problèmes, nous proposons MotionStreamer, un nouveau cadre qui intègre un espace latent causal continu dans un modèle autoregressif probabiliste. Les latents continus atténuent la perte d'information causée par la discrétisation et réduisent efficacement l'accumulation d'erreurs lors de la génération autoregressive à long terme. De plus, en établissant des dépendances causales temporelles entre les latents de mouvement actuels et historiques, notre modèle exploite pleinement les informations disponibles pour réaliser un décodage précis des mouvements en temps réel. Les expériences montrent que notre méthode surpasse les approches existantes tout en offrant davantage d'applications, notamment la génération multi-tours, la génération à long terme et la composition dynamique de mouvements. Page du projet : https://zju3dv.github.io/MotionStreamer/
English
This paper addresses the challenge of text-conditioned streaming motion generation, which requires us to predict the next-step human pose based on variable-length historical motions and incoming texts. Existing methods struggle to achieve streaming motion generation, e.g., diffusion models are constrained by pre-defined motion lengths, while GPT-based methods suffer from delayed response and error accumulation problem due to discretized non-causal tokenization. To solve these problems, we propose MotionStreamer, a novel framework that incorporates a continuous causal latent space into a probabilistic autoregressive model. The continuous latents mitigate information loss caused by discretization and effectively reduce error accumulation during long-term autoregressive generation. In addition, by establishing temporal causal dependencies between current and historical motion latents, our model fully utilizes the available information to achieve accurate online motion decoding. Experiments show that our method outperforms existing approaches while offering more applications, including multi-round generation, long-term generation, and dynamic motion composition. Project Page: https://zju3dv.github.io/MotionStreamer/

Summary

AI-Generated Summary

PDF142March 21, 2025