ChatPaper.aiChatPaper

Génération de mouvements humains fins à l'aide de descriptions raffinées par ChatGPT

Generating Fine-Grained Human Motions Using ChatGPT-Refined Descriptions

December 5, 2023
Auteurs: Xu Shi, Chuanchen Luo, Junran Peng, Hongwen Zhang, Yunlian Sun
cs.AI

Résumé

Récemment, des progrès significatifs ont été réalisés dans la génération de mouvements humains basée sur le texte, permettant la création de mouvements humains diversifiés et de haute qualité qui correspondent à des descriptions textuelles. Cependant, il reste difficile de générer des mouvements fins ou stylisés en raison du manque de jeux de données annotés avec des descriptions textuelles détaillées. En adoptant une stratégie de division et de conquête, nous proposons un nouveau cadre nommé Fine-Grained Human Motion Diffusion Model (FG-MDM) pour la génération de mouvements humains. Plus précisément, nous commençons par analyser les annotations textuelles vagues précédentes en descriptions fines des différentes parties du corps en exploitant un modèle de langage de grande taille (GPT-3.5). Nous utilisons ensuite ces descriptions fines pour guider un modèle de diffusion basé sur des transformateurs. FG-MDM est capable de générer des mouvements fins et stylisés, même en dehors de la distribution des données d'entraînement. Nos résultats expérimentaux démontrent la supériorité de FG-MDM par rapport aux méthodes précédentes, en particulier sa forte capacité de généralisation. Nous publierons nos annotations textuelles fines pour HumanML3D et KIT.
English
Recently, significant progress has been made in text-based motion generation, enabling the generation of diverse and high-quality human motions that conform to textual descriptions. However, it remains challenging to generate fine-grained or stylized motions due to the lack of datasets annotated with detailed textual descriptions. By adopting a divide-and-conquer strategy, we propose a new framework named Fine-Grained Human Motion Diffusion Model (FG-MDM) for human motion generation. Specifically, we first parse previous vague textual annotation into fine-grained description of different body parts by leveraging a large language model (GPT-3.5). We then use these fine-grained descriptions to guide a transformer-based diffusion model. FG-MDM can generate fine-grained and stylized motions even outside of the distribution of the training data. Our experimental results demonstrate the superiority of FG-MDM over previous methods, especially the strong generalization capability. We will release our fine-grained textual annotations for HumanML3D and KIT.
PDF90December 15, 2024