MotionStreamer: Streaming Bewegingsgeneratie via Diffusiegebaseerd Autoregressief Model in Causale Latente Ruimte
MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space
March 19, 2025
Auteurs: Lixing Xiao, Shunlin Lu, Huaijin Pi, Ke Fan, Liang Pan, Yueer Zhou, Ziyong Feng, Xiaowei Zhou, Sida Peng, Jingbo Wang
cs.AI
Samenvatting
Dit artikel behandelt de uitdaging van tekstgeconditioneerde streamingbewegingsgeneratie, waarbij het nodig is om de volgende menselijke houding te voorspellen op basis van variabele historische bewegingen en binnenkomende teksten. Bestaande methoden hebben moeite met het realiseren van streamingbewegingsgeneratie; zo zijn diffusiemodellen beperkt door vooraf gedefinieerde bewegingslengtes, terwijl GPT-gebaseerde methoden last hebben van vertraagde reacties en foutaccumulatie door gediscretiseerde niet-causale tokenisatie. Om deze problemen op te lossen, stellen we MotionStreamer voor, een nieuw framework dat een continu causaal latent ruimte integreert in een probabilistisch autoregressief model. De continue latenten verminderen informatieverlies veroorzaakt door discretisatie en beperken effectief foutaccumulatie tijdens langdurige autoregressieve generatie. Daarnaast maakt ons model door het vaststellen van temporele causale afhankelijkheden tussen huidige en historische bewegingslatenten volledig gebruik van de beschikbare informatie om nauwkeurige online bewegingsdecodering te bereiken. Experimenten tonen aan dat onze methode bestaande benaderingen overtreft en tegelijkertijd meer toepassingen biedt, waaronder meervoudige generatie, langdurige generatie en dynamische bewegingcompositie. Projectpagina: https://zju3dv.github.io/MotionStreamer/
English
This paper addresses the challenge of text-conditioned streaming motion
generation, which requires us to predict the next-step human pose based on
variable-length historical motions and incoming texts. Existing methods
struggle to achieve streaming motion generation, e.g., diffusion models are
constrained by pre-defined motion lengths, while GPT-based methods suffer from
delayed response and error accumulation problem due to discretized non-causal
tokenization. To solve these problems, we propose MotionStreamer, a novel
framework that incorporates a continuous causal latent space into a
probabilistic autoregressive model. The continuous latents mitigate information
loss caused by discretization and effectively reduce error accumulation during
long-term autoregressive generation. In addition, by establishing temporal
causal dependencies between current and historical motion latents, our model
fully utilizes the available information to achieve accurate online motion
decoding. Experiments show that our method outperforms existing approaches
while offering more applications, including multi-round generation, long-term
generation, and dynamic motion composition. Project Page:
https://zju3dv.github.io/MotionStreamer/Summary
AI-Generated Summary