Mogo : RQ Hierarchical Causal Transformer pour la génération de mouvements humains 3D de haute qualité

papers.abstract

Dans le domaine de la génération de mouvements à partir de texte, les modèles masqués de type Bert (MoMasK, MMM) produisent actuellement des sorties de meilleure qualité par rapport aux modèles autorégressifs de type GPT (T2M-GPT). Cependant, ces modèles de type Bert manquent souvent de la capacité de sortie en continu requise pour les applications dans les environnements de jeux vidéo et multimédias, une caractéristique inhérente aux modèles de type GPT. De plus, ils présentent des performances plus faibles en termes de génération hors distribution. Pour surpasser la qualité des modèles de type BERT tout en exploitant une structure de type GPT, sans ajouter de modèles de raffinement supplémentaires qui compliquent la mise à l'échelle des données, nous proposons une architecture novatrice, Mogo (Motion Only Generate Once), qui génère des mouvements humains 3D réalistes de haute qualité en entraînant un seul modèle de transformer. Mogo se compose uniquement de deux composants principaux : 1) RVQ-VAE, un autoencodeur variationnel hiérarchique de quantification vectorielle résiduelle, qui discrétise des séquences de mouvement continues avec une grande précision ; 2) Transformateur Causal Hiérarchique, chargé de générer les séquences de mouvement de base de manière autorégressive tout en inférant simultanément des résidus à travers différentes couches. Les résultats expérimentaux démontrent que Mogo peut générer des séquences de mouvement continues et cycliques jusqu'à 260 images (13 secondes), dépassant la limitation de longueur de 196 images (10 secondes) des ensembles de données existants tels que HumanML3D. Sur l'ensemble de test HumanML3D, Mogo atteint un score FID de 0,079, surpassant à la fois le modèle de type GPT T2M-GPT (FID = 0,116), AttT2M (FID = 0,112) et le modèle de type BERT MMM (FID = 0,080). De plus, notre modèle atteint la meilleure performance quantitative en termes de génération hors distribution.

English

In the field of text-to-motion generation, Bert-type Masked Models (MoMask, MMM) currently produce higher-quality outputs compared to GPT-type autoregressive models (T2M-GPT). However, these Bert-type models often lack the streaming output capability required for applications in video game and multimedia environments, a feature inherent to GPT-type models. Additionally, they demonstrate weaker performance in out-of-distribution generation. To surpass the quality of BERT-type models while leveraging a GPT-type structure, without adding extra refinement models that complicate scaling data, we propose a novel architecture, Mogo (Motion Only Generate Once), which generates high-quality lifelike 3D human motions by training a single transformer model. Mogo consists of only two main components: 1) RVQ-VAE, a hierarchical residual vector quantization variational autoencoder, which discretizes continuous motion sequences with high precision; 2) Hierarchical Causal Transformer, responsible for generating the base motion sequences in an autoregressive manner while simultaneously inferring residuals across different layers. Experimental results demonstrate that Mogo can generate continuous and cyclic motion sequences up to 260 frames (13 seconds), surpassing the 196 frames (10 seconds) length limitation of existing datasets like HumanML3D. On the HumanML3D test set, Mogo achieves a FID score of 0.079, outperforming both the GPT-type model T2M-GPT (FID = 0.116), AttT2M (FID = 0.112) and the BERT-type model MMM (FID = 0.080). Furthermore, our model achieves the best quantitative performance in out-of-distribution generation.

Mogo : RQ Hierarchical Causal Transformer pour la génération de mouvements humains 3D de haute qualité

Mogo: RQ Hierarchical Causal Transformer for High-Quality 3D Human Motion Generation

papers.abstract

Support