MotionStreamer: Generazione di Movimenti in Streaming tramite Modello Autoregressivo Basato su Diffusione nello Spazio Latente Causale

Abstract

Questo articolo affronta la sfida della generazione di movimento in streaming condizionata da testo, che richiede la previsione della prossima postura umana basandosi su movimenti storici di lunghezza variabile e testi in arrivo. I metodi esistenti faticano a realizzare la generazione di movimento in streaming: ad esempio, i modelli di diffusione sono limitati da lunghezze predefinite del movimento, mentre i metodi basati su GPT soffrono di risposte ritardate e accumulo di errori a causa della tokenizzazione non causale discretizzata. Per risolvere questi problemi, proponiamo MotionStreamer, un nuovo framework che incorpora uno spazio latente causale continuo in un modello probabilistico autoregressivo. I latenti continui mitigano la perdita di informazioni causata dalla discretizzazione e riducono efficacemente l'accumulo di errori durante la generazione autoregressiva a lungo termine. Inoltre, stabilendo dipendenze causali temporali tra i latenti del movimento corrente e quelli storici, il nostro modello sfrutta appieno le informazioni disponibili per ottenere una decodifica accurata del movimento in tempo reale. Gli esperimenti dimostrano che il nostro metodo supera gli approcci esistenti, offrendo al contempo più applicazioni, tra cui generazione multi-round, generazione a lungo termine e composizione dinamica del movimento. Pagina del progetto: https://zju3dv.github.io/MotionStreamer/

English

This paper addresses the challenge of text-conditioned streaming motion generation, which requires us to predict the next-step human pose based on variable-length historical motions and incoming texts. Existing methods struggle to achieve streaming motion generation, e.g., diffusion models are constrained by pre-defined motion lengths, while GPT-based methods suffer from delayed response and error accumulation problem due to discretized non-causal tokenization. To solve these problems, we propose MotionStreamer, a novel framework that incorporates a continuous causal latent space into a probabilistic autoregressive model. The continuous latents mitigate information loss caused by discretization and effectively reduce error accumulation during long-term autoregressive generation. In addition, by establishing temporal causal dependencies between current and historical motion latents, our model fully utilizes the available information to achieve accurate online motion decoding. Experiments show that our method outperforms existing approaches while offering more applications, including multi-round generation, long-term generation, and dynamic motion composition. Project Page: https://zju3dv.github.io/MotionStreamer/

MotionStreamer: Generazione di Movimenti in Streaming tramite Modello Autoregressivo Basato su Diffusione nello Spazio Latente Causale

MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space

Abstract

Support