MotionStreamer: Streaming Bewegingsgeneratie via Diffusiegebaseerd Autoregressief Model in Causale Latente Ruimte

Samenvatting

Dit artikel behandelt de uitdaging van tekstgeconditioneerde streamingbewegingsgeneratie, waarbij het nodig is om de volgende menselijke houding te voorspellen op basis van variabele historische bewegingen en binnenkomende teksten. Bestaande methoden hebben moeite met het realiseren van streamingbewegingsgeneratie; zo zijn diffusiemodellen beperkt door vooraf gedefinieerde bewegingslengtes, terwijl GPT-gebaseerde methoden last hebben van vertraagde reacties en foutaccumulatie door gediscretiseerde niet-causale tokenisatie. Om deze problemen op te lossen, stellen we MotionStreamer voor, een nieuw framework dat een continu causaal latent ruimte integreert in een probabilistisch autoregressief model. De continue latenten verminderen informatieverlies veroorzaakt door discretisatie en beperken effectief foutaccumulatie tijdens langdurige autoregressieve generatie. Daarnaast maakt ons model door het vaststellen van temporele causale afhankelijkheden tussen huidige en historische bewegingslatenten volledig gebruik van de beschikbare informatie om nauwkeurige online bewegingsdecodering te bereiken. Experimenten tonen aan dat onze methode bestaande benaderingen overtreft en tegelijkertijd meer toepassingen biedt, waaronder meervoudige generatie, langdurige generatie en dynamische bewegingcompositie. Projectpagina: https://zju3dv.github.io/MotionStreamer/

English

This paper addresses the challenge of text-conditioned streaming motion generation, which requires us to predict the next-step human pose based on variable-length historical motions and incoming texts. Existing methods struggle to achieve streaming motion generation, e.g., diffusion models are constrained by pre-defined motion lengths, while GPT-based methods suffer from delayed response and error accumulation problem due to discretized non-causal tokenization. To solve these problems, we propose MotionStreamer, a novel framework that incorporates a continuous causal latent space into a probabilistic autoregressive model. The continuous latents mitigate information loss caused by discretization and effectively reduce error accumulation during long-term autoregressive generation. In addition, by establishing temporal causal dependencies between current and historical motion latents, our model fully utilizes the available information to achieve accurate online motion decoding. Experiments show that our method outperforms existing approaches while offering more applications, including multi-round generation, long-term generation, and dynamic motion composition. Project Page: https://zju3dv.github.io/MotionStreamer/

MotionStreamer: Streaming Bewegingsgeneratie via Diffusiegebaseerd Autoregressief Model in Causale Latente Ruimte

MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space

Samenvatting

Support