Mogo: RQ Hierarchical Causal Transformer para Geração de Movimento Humano 3D de Alta Qualidade
Mogo: RQ Hierarchical Causal Transformer for High-Quality 3D Human Motion Generation
December 5, 2024
Autores: Dongjie Fu
cs.AI
Resumo
No campo da geração de texto para movimento, os Modelos Mascaramentos do tipo Bert (MoMask, MMM) atualmente produzem saídas de maior qualidade em comparação com os modelos autorregressivos do tipo GPT (T2M-GPT). No entanto, esses modelos do tipo Bert frequentemente carecem da capacidade de saída contínua necessária para aplicações em ambientes de videogame e multimídia, uma característica inerente aos modelos do tipo GPT. Além disso, eles demonstram um desempenho mais fraco na geração fora da distribuição. Para superar a qualidade dos modelos do tipo BERT enquanto aproveita uma estrutura do tipo GPT, sem adicionar modelos de refinamento extras que complicam a escalabilidade dos dados, propomos uma arquitetura inovadora, Mogo (Motion Only Generate Once), que gera movimentos humanos 3D realistas de alta qualidade treinando um único modelo transformer. Mogo consiste apenas em dois componentes principais: 1) RVQ-VAE, um autoencoder variacional de quantização vetorial residual hierárquico, que discretiza sequências de movimento contínuas com alta precisão; 2) Transformer Causal Hierárquico, responsável por gerar as sequências de movimento base de maneira autorregressiva enquanto infere simultaneamente resíduos em diferentes camadas. Resultados experimentais demonstram que Mogo pode gerar sequências de movimento contínuas e cíclicas de até 260 quadros (13 segundos), ultrapassando a limitação de comprimento de 196 quadros (10 segundos) de conjuntos de dados existentes como o HumanML3D. No conjunto de testes do HumanML3D, Mogo alcança um escore FID de 0,079, superando tanto o modelo do tipo GPT T2M-GPT (FID = 0,116), AttT2M (FID = 0,112) quanto o modelo do tipo BERT MMM (FID = 0,080). Além disso, nosso modelo alcança o melhor desempenho quantitativo na geração fora da distribuição.
English
In the field of text-to-motion generation, Bert-type Masked Models (MoMask,
MMM) currently produce higher-quality outputs compared to GPT-type
autoregressive models (T2M-GPT). However, these Bert-type models often lack the
streaming output capability required for applications in video game and
multimedia environments, a feature inherent to GPT-type models. Additionally,
they demonstrate weaker performance in out-of-distribution generation. To
surpass the quality of BERT-type models while leveraging a GPT-type structure,
without adding extra refinement models that complicate scaling data, we propose
a novel architecture, Mogo (Motion Only Generate Once), which generates
high-quality lifelike 3D human motions by training a single transformer model.
Mogo consists of only two main components: 1) RVQ-VAE, a hierarchical residual
vector quantization variational autoencoder, which discretizes continuous
motion sequences with high precision; 2) Hierarchical Causal Transformer,
responsible for generating the base motion sequences in an autoregressive
manner while simultaneously inferring residuals across different layers.
Experimental results demonstrate that Mogo can generate continuous and cyclic
motion sequences up to 260 frames (13 seconds), surpassing the 196 frames (10
seconds) length limitation of existing datasets like HumanML3D. On the
HumanML3D test set, Mogo achieves a FID score of 0.079, outperforming both the
GPT-type model T2M-GPT (FID = 0.116), AttT2M (FID = 0.112) and the BERT-type
model MMM (FID = 0.080). Furthermore, our model achieves the best quantitative
performance in out-of-distribution generation.Summary
AI-Generated Summary