Génération de mouvements humains fins à l'aide de descriptions raffinées par ChatGPT
Generating Fine-Grained Human Motions Using ChatGPT-Refined Descriptions
December 5, 2023
Auteurs: Xu Shi, Chuanchen Luo, Junran Peng, Hongwen Zhang, Yunlian Sun
cs.AI
Résumé
Récemment, des progrès significatifs ont été réalisés dans la génération de mouvements humains basée sur le texte, permettant la création de mouvements humains diversifiés et de haute qualité qui correspondent à des descriptions textuelles. Cependant, il reste difficile de générer des mouvements fins ou stylisés en raison du manque de jeux de données annotés avec des descriptions textuelles détaillées. En adoptant une stratégie de division et de conquête, nous proposons un nouveau cadre nommé Fine-Grained Human Motion Diffusion Model (FG-MDM) pour la génération de mouvements humains. Plus précisément, nous commençons par analyser les annotations textuelles vagues précédentes en descriptions fines des différentes parties du corps en exploitant un modèle de langage de grande taille (GPT-3.5). Nous utilisons ensuite ces descriptions fines pour guider un modèle de diffusion basé sur des transformateurs. FG-MDM est capable de générer des mouvements fins et stylisés, même en dehors de la distribution des données d'entraînement. Nos résultats expérimentaux démontrent la supériorité de FG-MDM par rapport aux méthodes précédentes, en particulier sa forte capacité de généralisation. Nous publierons nos annotations textuelles fines pour HumanML3D et KIT.
English
Recently, significant progress has been made in text-based motion generation,
enabling the generation of diverse and high-quality human motions that conform
to textual descriptions. However, it remains challenging to generate
fine-grained or stylized motions due to the lack of datasets annotated with
detailed textual descriptions. By adopting a divide-and-conquer strategy, we
propose a new framework named Fine-Grained Human Motion Diffusion Model
(FG-MDM) for human motion generation. Specifically, we first parse previous
vague textual annotation into fine-grained description of different body parts
by leveraging a large language model (GPT-3.5). We then use these fine-grained
descriptions to guide a transformer-based diffusion model. FG-MDM can generate
fine-grained and stylized motions even outside of the distribution of the
training data. Our experimental results demonstrate the superiority of FG-MDM
over previous methods, especially the strong generalization capability. We will
release our fine-grained textual annotations for HumanML3D and KIT.