MotionGPT : Les modèles de langage affinés sont des générateurs de mouvements à usage général.
MotionGPT: Finetuned LLMs are General-Purpose Motion Generators
June 19, 2023
Auteurs: Yaqi Zhang, Di Huang, Bin Liu, Shixiang Tang, Yan Lu, Lu Chen, Lei Bai, Qi Chu, Nenghai Yu, Wanli Ouyang
cs.AI
Résumé
La génération de mouvements humains réalistes à partir de descriptions d'actions données a connu des avancées significatives en raison de l'émergence des besoins en humains numériques. Bien que les travaux récents aient obtenu des résultats impressionnants dans la génération de mouvements directement à partir de descriptions textuelles d'actions, ils ne prennent souvent en charge qu'une seule modalité du signal de contrôle, ce qui limite leur application dans l'industrie réelle des humains numériques. Cet article présente un générateur polyvalent de mouvements (MotionGPT) capable d'utiliser des signaux de contrôle multimodaux, par exemple du texte et des poses sur une seule image, pour générer des mouvements humains consécutifs en traitant les signaux multimodaux comme des tokens d'entrée spéciaux dans les grands modèles de langage (LLM). Plus précisément, nous quantifions d'abord les signaux de contrôle multimodaux en codes discrets, puis les formulons dans une instruction d'invite unifiée pour demander aux LLM de générer la réponse en mouvement. Notre MotionGPT démontre un modèle unifié de génération de mouvements humains avec des signaux de contrôle multimodaux en ajustant seulement 0,4 % des paramètres du LLM. À notre connaissance, MotionGPT est la première méthode à générer des mouvements humains à partir de signaux de contrôle multimodaux, ce qui, nous l'espérons, pourra éclairer cette nouvelle direction. Les codes seront publiés après acceptation.
English
Generating realistic human motion from given action descriptions has
experienced significant advancements because of the emerging requirement of
digital humans. While recent works have achieved impressive results in
generating motion directly from textual action descriptions, they often support
only a single modality of the control signal, which limits their application in
the real digital human industry. This paper presents a Motion General-Purpose
generaTor (MotionGPT) that can use multimodal control signals, e.g., text and
single-frame poses, for generating consecutive human motions by treating
multimodal signals as special input tokens in large language models (LLMs).
Specifically, we first quantize multimodal control signals into discrete codes
and then formulate them in a unified prompt instruction to ask the LLMs to
generate the motion answer. Our MotionGPT demonstrates a unified human motion
generation model with multimodal control signals by tuning a mere 0.4% of LLM
parameters. To the best of our knowledge, MotionGPT is the first method to
generate human motion by multimodal control signals, which we hope can shed
light on this new direction. Codes shall be released upon acceptance.