MotionStreamer: Generazione di Movimenti in Streaming tramite Modello Autoregressivo Basato su Diffusione nello Spazio Latente Causale
MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space
March 19, 2025
Autori: Lixing Xiao, Shunlin Lu, Huaijin Pi, Ke Fan, Liang Pan, Yueer Zhou, Ziyong Feng, Xiaowei Zhou, Sida Peng, Jingbo Wang
cs.AI
Abstract
Questo articolo affronta la sfida della generazione di movimento in streaming condizionata da testo, che richiede la previsione della prossima postura umana basandosi su movimenti storici di lunghezza variabile e testi in arrivo. I metodi esistenti faticano a realizzare la generazione di movimento in streaming: ad esempio, i modelli di diffusione sono limitati da lunghezze predefinite del movimento, mentre i metodi basati su GPT soffrono di risposte ritardate e accumulo di errori a causa della tokenizzazione non causale discretizzata. Per risolvere questi problemi, proponiamo MotionStreamer, un nuovo framework che incorpora uno spazio latente causale continuo in un modello probabilistico autoregressivo. I latenti continui mitigano la perdita di informazioni causata dalla discretizzazione e riducono efficacemente l'accumulo di errori durante la generazione autoregressiva a lungo termine. Inoltre, stabilendo dipendenze causali temporali tra i latenti del movimento corrente e quelli storici, il nostro modello sfrutta appieno le informazioni disponibili per ottenere una decodifica accurata del movimento in tempo reale. Gli esperimenti dimostrano che il nostro metodo supera gli approcci esistenti, offrendo al contempo più applicazioni, tra cui generazione multi-round, generazione a lungo termine e composizione dinamica del movimento. Pagina del progetto: https://zju3dv.github.io/MotionStreamer/
English
This paper addresses the challenge of text-conditioned streaming motion
generation, which requires us to predict the next-step human pose based on
variable-length historical motions and incoming texts. Existing methods
struggle to achieve streaming motion generation, e.g., diffusion models are
constrained by pre-defined motion lengths, while GPT-based methods suffer from
delayed response and error accumulation problem due to discretized non-causal
tokenization. To solve these problems, we propose MotionStreamer, a novel
framework that incorporates a continuous causal latent space into a
probabilistic autoregressive model. The continuous latents mitigate information
loss caused by discretization and effectively reduce error accumulation during
long-term autoregressive generation. In addition, by establishing temporal
causal dependencies between current and historical motion latents, our model
fully utilizes the available information to achieve accurate online motion
decoding. Experiments show that our method outperforms existing approaches
while offering more applications, including multi-round generation, long-term
generation, and dynamic motion composition. Project Page:
https://zju3dv.github.io/MotionStreamer/