MotionStreamer: Geração de Movimento em Streaming via Modelo Autoregressivo Baseado em Difusão no Espaço Latente Causal
MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space
March 19, 2025
Autores: Lixing Xiao, Shunlin Lu, Huaijin Pi, Ke Fan, Liang Pan, Yueer Zhou, Ziyong Feng, Xiaowei Zhou, Sida Peng, Jingbo Wang
cs.AI
Resumo
Este artigo aborda o desafio da geração de movimento em fluxo condicionado por texto, que exige a previsão da próxima pose humana com base em movimentos históricos de comprimento variável e textos recebidos. Os métodos existentes enfrentam dificuldades para alcançar a geração de movimento em fluxo, por exemplo, modelos de difusão são limitados por comprimentos de movimento predefinidos, enquanto métodos baseados em GPT sofrem com resposta atrasada e acúmulo de erros devido à tokenização não causal discretizada. Para resolver esses problemas, propomos o MotionStreamer, uma nova estrutura que incorpora um espaço latente causal contínuo em um modelo autoregressivo probabilístico. Os latentes contínuos mitigam a perda de informação causada pela discretização e reduzem efetivamente o acúmulo de erros durante a geração autoregressiva de longo prazo. Além disso, ao estabelecer dependências causais temporais entre os latentes de movimento atuais e históricos, nosso modelo utiliza plenamente as informações disponíveis para alcançar uma decodificação de movimento online precisa. Experimentos mostram que nosso método supera as abordagens existentes, oferecendo mais aplicações, incluindo geração de múltiplas rodadas, geração de longo prazo e composição dinâmica de movimento. Página do Projeto: https://zju3dv.github.io/MotionStreamer/
English
This paper addresses the challenge of text-conditioned streaming motion
generation, which requires us to predict the next-step human pose based on
variable-length historical motions and incoming texts. Existing methods
struggle to achieve streaming motion generation, e.g., diffusion models are
constrained by pre-defined motion lengths, while GPT-based methods suffer from
delayed response and error accumulation problem due to discretized non-causal
tokenization. To solve these problems, we propose MotionStreamer, a novel
framework that incorporates a continuous causal latent space into a
probabilistic autoregressive model. The continuous latents mitigate information
loss caused by discretization and effectively reduce error accumulation during
long-term autoregressive generation. In addition, by establishing temporal
causal dependencies between current and historical motion latents, our model
fully utilizes the available information to achieve accurate online motion
decoding. Experiments show that our method outperforms existing approaches
while offering more applications, including multi-round generation, long-term
generation, and dynamic motion composition. Project Page:
https://zju3dv.github.io/MotionStreamer/Summary
AI-Generated Summary