Mogo: RQ Hierarchical Causal Transformer para Geração de Movimento Humano 3D de Alta Qualidade

Resumo

No campo da geração de texto para movimento, os Modelos Mascaramentos do tipo Bert (MoMask, MMM) atualmente produzem saídas de maior qualidade em comparação com os modelos autorregressivos do tipo GPT (T2M-GPT). No entanto, esses modelos do tipo Bert frequentemente carecem da capacidade de saída contínua necessária para aplicações em ambientes de videogame e multimídia, uma característica inerente aos modelos do tipo GPT. Além disso, eles demonstram um desempenho mais fraco na geração fora da distribuição. Para superar a qualidade dos modelos do tipo BERT enquanto aproveita uma estrutura do tipo GPT, sem adicionar modelos de refinamento extras que complicam a escalabilidade dos dados, propomos uma arquitetura inovadora, Mogo (Motion Only Generate Once), que gera movimentos humanos 3D realistas de alta qualidade treinando um único modelo transformer. Mogo consiste apenas em dois componentes principais: 1) RVQ-VAE, um autoencoder variacional de quantização vetorial residual hierárquico, que discretiza sequências de movimento contínuas com alta precisão; 2) Transformer Causal Hierárquico, responsável por gerar as sequências de movimento base de maneira autorregressiva enquanto infere simultaneamente resíduos em diferentes camadas. Resultados experimentais demonstram que Mogo pode gerar sequências de movimento contínuas e cíclicas de até 260 quadros (13 segundos), ultrapassando a limitação de comprimento de 196 quadros (10 segundos) de conjuntos de dados existentes como o HumanML3D. No conjunto de testes do HumanML3D, Mogo alcança um escore FID de 0,079, superando tanto o modelo do tipo GPT T2M-GPT (FID = 0,116), AttT2M (FID = 0,112) quanto o modelo do tipo BERT MMM (FID = 0,080). Além disso, nosso modelo alcança o melhor desempenho quantitativo na geração fora da distribuição.

English

In the field of text-to-motion generation, Bert-type Masked Models (MoMask, MMM) currently produce higher-quality outputs compared to GPT-type autoregressive models (T2M-GPT). However, these Bert-type models often lack the streaming output capability required for applications in video game and multimedia environments, a feature inherent to GPT-type models. Additionally, they demonstrate weaker performance in out-of-distribution generation. To surpass the quality of BERT-type models while leveraging a GPT-type structure, without adding extra refinement models that complicate scaling data, we propose a novel architecture, Mogo (Motion Only Generate Once), which generates high-quality lifelike 3D human motions by training a single transformer model. Mogo consists of only two main components: 1) RVQ-VAE, a hierarchical residual vector quantization variational autoencoder, which discretizes continuous motion sequences with high precision; 2) Hierarchical Causal Transformer, responsible for generating the base motion sequences in an autoregressive manner while simultaneously inferring residuals across different layers. Experimental results demonstrate that Mogo can generate continuous and cyclic motion sequences up to 260 frames (13 seconds), surpassing the 196 frames (10 seconds) length limitation of existing datasets like HumanML3D. On the HumanML3D test set, Mogo achieves a FID score of 0.079, outperforming both the GPT-type model T2M-GPT (FID = 0.116), AttT2M (FID = 0.112) and the BERT-type model MMM (FID = 0.080). Furthermore, our model achieves the best quantitative performance in out-of-distribution generation.

Mogo: RQ Hierarchical Causal Transformer para Geração de Movimento Humano 3D de Alta Qualidade

Mogo: RQ Hierarchical Causal Transformer for High-Quality 3D Human Motion Generation

Resumo

Support