Mogo : RQ Hierarchical Causal Transformer pour la génération de mouvements humains 3D de haute qualité
Mogo: RQ Hierarchical Causal Transformer for High-Quality 3D Human Motion Generation
December 5, 2024
Auteurs: Dongjie Fu
cs.AI
Résumé
Dans le domaine de la génération de mouvements à partir de texte, les modèles masqués de type Bert (MoMasK, MMM) produisent actuellement des sorties de meilleure qualité par rapport aux modèles autorégressifs de type GPT (T2M-GPT). Cependant, ces modèles de type Bert manquent souvent de la capacité de sortie en continu requise pour les applications dans les environnements de jeux vidéo et multimédias, une caractéristique inhérente aux modèles de type GPT. De plus, ils présentent des performances plus faibles en termes de génération hors distribution. Pour surpasser la qualité des modèles de type BERT tout en exploitant une structure de type GPT, sans ajouter de modèles de raffinement supplémentaires qui compliquent la mise à l'échelle des données, nous proposons une architecture novatrice, Mogo (Motion Only Generate Once), qui génère des mouvements humains 3D réalistes de haute qualité en entraînant un seul modèle de transformer. Mogo se compose uniquement de deux composants principaux : 1) RVQ-VAE, un autoencodeur variationnel hiérarchique de quantification vectorielle résiduelle, qui discrétise des séquences de mouvement continues avec une grande précision ; 2) Transformateur Causal Hiérarchique, chargé de générer les séquences de mouvement de base de manière autorégressive tout en inférant simultanément des résidus à travers différentes couches. Les résultats expérimentaux démontrent que Mogo peut générer des séquences de mouvement continues et cycliques jusqu'à 260 images (13 secondes), dépassant la limitation de longueur de 196 images (10 secondes) des ensembles de données existants tels que HumanML3D. Sur l'ensemble de test HumanML3D, Mogo atteint un score FID de 0,079, surpassant à la fois le modèle de type GPT T2M-GPT (FID = 0,116), AttT2M (FID = 0,112) et le modèle de type BERT MMM (FID = 0,080). De plus, notre modèle atteint la meilleure performance quantitative en termes de génération hors distribution.
English
In the field of text-to-motion generation, Bert-type Masked Models (MoMask,
MMM) currently produce higher-quality outputs compared to GPT-type
autoregressive models (T2M-GPT). However, these Bert-type models often lack the
streaming output capability required for applications in video game and
multimedia environments, a feature inherent to GPT-type models. Additionally,
they demonstrate weaker performance in out-of-distribution generation. To
surpass the quality of BERT-type models while leveraging a GPT-type structure,
without adding extra refinement models that complicate scaling data, we propose
a novel architecture, Mogo (Motion Only Generate Once), which generates
high-quality lifelike 3D human motions by training a single transformer model.
Mogo consists of only two main components: 1) RVQ-VAE, a hierarchical residual
vector quantization variational autoencoder, which discretizes continuous
motion sequences with high precision; 2) Hierarchical Causal Transformer,
responsible for generating the base motion sequences in an autoregressive
manner while simultaneously inferring residuals across different layers.
Experimental results demonstrate that Mogo can generate continuous and cyclic
motion sequences up to 260 frames (13 seconds), surpassing the 196 frames (10
seconds) length limitation of existing datasets like HumanML3D. On the
HumanML3D test set, Mogo achieves a FID score of 0.079, outperforming both the
GPT-type model T2M-GPT (FID = 0.116), AttT2M (FID = 0.112) and the BERT-type
model MMM (FID = 0.080). Furthermore, our model achieves the best quantitative
performance in out-of-distribution generation.Summary
AI-Generated Summary