MoMask : Modélisation générative masquée des mouvements humains en 3D
MoMask: Generative Masked Modeling of 3D Human Motions
November 29, 2023
Auteurs: Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, Li Cheng
cs.AI
Résumé
Nous présentons MoMask, un nouveau cadre de modélisation masquée pour la génération de mouvements humains 3D pilotée par texte. Dans MoMask, un schéma de quantification hiérarchique est utilisé pour représenter le mouvement humain sous forme de jetons de mouvement discrets multicouches avec des détails de haute fidélité. En partant de la couche de base, avec une séquence de jetons de mouvement obtenue par quantification vectorielle, les jetons résiduels d'ordres croissants sont dérivés et stockés aux couches suivantes de la hiérarchie. Cela est ensuite suivi par deux transformateurs bidirectionnels distincts. Pour les jetons de mouvement de la couche de base, un Transformeur Masqué est désigné pour prédire les jetons de mouvement masqués aléatoirement, conditionnés par l'entrée textuelle lors de la phase d'entraînement. Pendant la phase de génération (c'est-à-dire l'inférence), en partant d'une séquence vide, notre Transformeur Masqué remplit itérativement les jetons manquants ; par la suite, un Transformeur Résiduel apprend à prédire progressivement les jetons de la couche suivante en se basant sur les résultats de la couche actuelle. Des expériences approfondies démontrent que MoMask surpasse les méthodes de pointe dans la tâche de génération de mouvement à partir de texte, avec un FID de 0,045 (contre par exemple 0,141 pour T2M-GPT) sur le jeu de données HumanML3D, et 0,228 (contre 0,514) sur KIT-ML, respectivement. MoMask peut également être appliqué de manière transparente à des tâches connexes sans ajustement supplémentaire du modèle, comme l'inpainting temporel guidé par texte.
English
We introduce MoMask, a novel masked modeling framework for text-driven 3D
human motion generation. In MoMask, a hierarchical quantization scheme is
employed to represent human motion as multi-layer discrete motion tokens with
high-fidelity details. Starting at the base layer, with a sequence of motion
tokens obtained by vector quantization, the residual tokens of increasing
orders are derived and stored at the subsequent layers of the hierarchy. This
is consequently followed by two distinct bidirectional transformers. For the
base-layer motion tokens, a Masked Transformer is designated to predict
randomly masked motion tokens conditioned on text input at training stage.
During generation (i.e. inference) stage, starting from an empty sequence, our
Masked Transformer iteratively fills up the missing tokens; Subsequently, a
Residual Transformer learns to progressively predict the next-layer tokens
based on the results from current layer. Extensive experiments demonstrate that
MoMask outperforms the state-of-art methods on the text-to-motion generation
task, with an FID of 0.045 (vs e.g. 0.141 of T2M-GPT) on the HumanML3D dataset,
and 0.228 (vs 0.514) on KIT-ML, respectively. MoMask can also be seamlessly
applied in related tasks without further model fine-tuning, such as text-guided
temporal inpainting.