MotionGPT : Le mouvement humain comme langage étranger
MotionGPT: Human Motion as a Foreign Language
June 26, 2023
Auteurs: Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, Tao Chen
cs.AI
Résumé
Bien que les progrès des grands modèles de langage pré-entraînés se poursuivent, l'exploration visant à construire un modèle unifié pour le langage et d'autres données multimodales, telles que le mouvement, reste un défi et demeure largement inexplorée à ce jour. Heureusement, le mouvement humain présente un couplage sémantique similaire au langage humain, souvent perçu comme une forme de langage corporel. En fusionnant les données linguistiques avec des modèles de mouvement à grande échelle, un pré-entraînement combinant mouvement et langage, capable d'améliorer les performances sur des tâches liées au mouvement, devient réalisable. Motivés par cette idée, nous proposons MotionGPT, un modèle unifié, polyvalent et convivial pour traiter plusieurs tâches pertinentes au mouvement. Plus précisément, nous utilisons la quantification vectorielle discrète pour le mouvement humain et transformons les mouvements 3D en tokens de mouvement, de manière similaire au processus de génération des tokens de mots. En nous appuyant sur ce "vocabulaire de mouvement", nous effectuons une modélisation du langage à la fois sur le mouvement et le texte de manière unifiée, traitant le mouvement humain comme un langage spécifique. De plus, inspirés par l'apprentissage par prompts, nous pré-entraînons MotionGPT avec un mélange de données mouvement-langage et l'affinons sur des tâches de questions-réponses basées sur des prompts. Des expériences approfondies démontrent que MotionGPT atteint des performances de pointe sur plusieurs tâches liées au mouvement, incluant la génération de mouvement pilotée par texte, la description de mouvement, la prédiction de mouvement, et l'interpolation de mouvement.
English
Though the advancement of pre-trained large language models unfolds, the
exploration of building a unified model for language and other multi-modal
data, such as motion, remains challenging and untouched so far. Fortunately,
human motion displays a semantic coupling akin to human language, often
perceived as a form of body language. By fusing language data with large-scale
motion models, motion-language pre-training that can enhance the performance of
motion-related tasks becomes feasible. Driven by this insight, we propose
MotionGPT, a unified, versatile, and user-friendly motion-language model to
handle multiple motion-relevant tasks. Specifically, we employ the discrete
vector quantization for human motion and transfer 3D motion into motion tokens,
similar to the generation process of word tokens. Building upon this "motion
vocabulary", we perform language modeling on both motion and text in a unified
manner, treating human motion as a specific language. Moreover, inspired by
prompt learning, we pre-train MotionGPT with a mixture of motion-language data
and fine-tune it on prompt-based question-and-answer tasks. Extensive
experiments demonstrate that MotionGPT achieves state-of-the-art performances
on multiple motion tasks including text-driven motion generation, motion
captioning, motion prediction, and motion in-between.