MotionStreamer: Generación de movimiento en streaming mediante un modelo autorregresivo basado en difusión en espacio latente causal
MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space
March 19, 2025
Autores: Lixing Xiao, Shunlin Lu, Huaijin Pi, Ke Fan, Liang Pan, Yueer Zhou, Ziyong Feng, Xiaowei Zhou, Sida Peng, Jingbo Wang
cs.AI
Resumen
Este artículo aborda el desafío de la generación de movimiento en flujo condicionado por texto, que requiere predecir la siguiente postura humana basándose en movimientos históricos de longitud variable y textos entrantes. Los métodos existentes tienen dificultades para lograr la generación de movimiento en flujo; por ejemplo, los modelos de difusión están limitados por longitudes de movimiento predefinidas, mientras que los métodos basados en GPT sufren de respuestas retrasadas y problemas de acumulación de errores debido a la tokenización no causal discretizada. Para resolver estos problemas, proponemos MotionStreamer, un marco novedoso que incorpora un espacio latente causal continuo en un modelo autorregresivo probabilístico. Los latentes continuos mitigan la pérdida de información causada por la discretización y reducen efectivamente la acumulación de errores durante la generación autorregresiva a largo plazo. Además, al establecer dependencias causales temporales entre los latentes de movimiento actuales e históricos, nuestro modelo aprovecha al máximo la información disponible para lograr una decodificación precisa de movimiento en línea. Los experimentos muestran que nuestro método supera a los enfoques existentes mientras ofrece más aplicaciones, incluyendo generación en múltiples rondas, generación a largo plazo y composición dinámica de movimiento. Página del proyecto: https://zju3dv.github.io/MotionStreamer/
English
This paper addresses the challenge of text-conditioned streaming motion
generation, which requires us to predict the next-step human pose based on
variable-length historical motions and incoming texts. Existing methods
struggle to achieve streaming motion generation, e.g., diffusion models are
constrained by pre-defined motion lengths, while GPT-based methods suffer from
delayed response and error accumulation problem due to discretized non-causal
tokenization. To solve these problems, we propose MotionStreamer, a novel
framework that incorporates a continuous causal latent space into a
probabilistic autoregressive model. The continuous latents mitigate information
loss caused by discretization and effectively reduce error accumulation during
long-term autoregressive generation. In addition, by establishing temporal
causal dependencies between current and historical motion latents, our model
fully utilizes the available information to achieve accurate online motion
decoding. Experiments show that our method outperforms existing approaches
while offering more applications, including multi-round generation, long-term
generation, and dynamic motion composition. Project Page:
https://zju3dv.github.io/MotionStreamer/Summary
AI-Generated Summary