ChatPaper.aiChatPaper

MotionStreamer: Потоковая генерация движений с помощью диффузионной авторегрессионной модели в причинно-следственном латентном пространстве

MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space

March 19, 2025
Авторы: Lixing Xiao, Shunlin Lu, Huaijin Pi, Ke Fan, Liang Pan, Yueer Zhou, Ziyong Feng, Xiaowei Zhou, Sida Peng, Jingbo Wang
cs.AI

Аннотация

В данной работе рассматривается задача потокового генерации движений на основе текста, которая требует предсказания следующего шага человеческой позы с учетом переменной длины исторических движений и поступающих текстовых данных. Существующие методы сталкиваются с трудностями при реализации потоковой генерации движений: например, диффузионные модели ограничены предопределенной длиной движений, а методы на основе GPT страдают от задержек в ответах и накопления ошибок из-за дискретизированной некаузальной токенизации. Для решения этих проблем мы предлагаем MotionStreamer — новый фреймворк, который интегрирует непрерывное каузальное латентное пространство в вероятностную авторегрессионную модель. Непрерывные латентные переменные уменьшают потерю информации, вызванную дискретизацией, и эффективно снижают накопление ошибок при долгосрочной авторегрессионной генерации. Кроме того, устанавливая временные каузальные зависимости между текущими и историческими латентными переменными движений, наша модель полностью использует доступную информацию для точного декодирования движений в режиме реального времени. Эксперименты показывают, что наш метод превосходит существующие подходы, предлагая больше возможностей, включая многократную генерацию, долгосрочную генерацию и динамическую композицию движений. Страница проекта: https://zju3dv.github.io/MotionStreamer/
English
This paper addresses the challenge of text-conditioned streaming motion generation, which requires us to predict the next-step human pose based on variable-length historical motions and incoming texts. Existing methods struggle to achieve streaming motion generation, e.g., diffusion models are constrained by pre-defined motion lengths, while GPT-based methods suffer from delayed response and error accumulation problem due to discretized non-causal tokenization. To solve these problems, we propose MotionStreamer, a novel framework that incorporates a continuous causal latent space into a probabilistic autoregressive model. The continuous latents mitigate information loss caused by discretization and effectively reduce error accumulation during long-term autoregressive generation. In addition, by establishing temporal causal dependencies between current and historical motion latents, our model fully utilizes the available information to achieve accurate online motion decoding. Experiments show that our method outperforms existing approaches while offering more applications, including multi-round generation, long-term generation, and dynamic motion composition. Project Page: https://zju3dv.github.io/MotionStreamer/

Summary

AI-Generated Summary

PDF142March 21, 2025