Het genereren van fijnmazige menselijke bewegingen met behulp van ChatGPT-verfijnde beschrijvingen
Generating Fine-Grained Human Motions Using ChatGPT-Refined Descriptions
December 5, 2023
Auteurs: Xu Shi, Chuanchen Luo, Junran Peng, Hongwen Zhang, Yunlian Sun
cs.AI
Samenvatting
Onlangs is er aanzienlijke vooruitgang geboekt in tekstgebaseerde bewegingsgeneratie, waardoor het mogelijk is geworden om diverse en hoogwaardige menselijke bewegingen te genereren die voldoen aan tekstuele beschrijvingen. Het blijft echter een uitdaging om fijnmazige of gestileerde bewegingen te genereren vanwege het gebrek aan datasets die zijn geannoteerd met gedetailleerde tekstuele beschrijvingen. Door een verdeel-en-heers-strategie toe te passen, stellen we een nieuw framework voor genaamd Fine-Grained Human Motion Diffusion Model (FG-MDM) voor de generatie van menselijke bewegingen. Specifiek parsen we eerst eerdere vage tekstuele annotaties in fijnmazige beschrijvingen van verschillende lichaamsdelen door gebruik te maken van een groot taalmodel (GPT-3.5). Vervolgens gebruiken we deze fijnmazige beschrijvingen om een transformer-gebaseerd diffusiemodel te sturen. FG-MDM kan fijnmazige en gestileerde bewegingen genereren, zelfs buiten de verdeling van de trainingsdata. Onze experimentele resultaten tonen de superioriteit van FG-MDM aan ten opzichte van eerdere methoden, met name de sterke generalisatiecapaciteit. We zullen onze fijnmazige tekstuele annotaties voor HumanML3D en KIT vrijgeven.
English
Recently, significant progress has been made in text-based motion generation,
enabling the generation of diverse and high-quality human motions that conform
to textual descriptions. However, it remains challenging to generate
fine-grained or stylized motions due to the lack of datasets annotated with
detailed textual descriptions. By adopting a divide-and-conquer strategy, we
propose a new framework named Fine-Grained Human Motion Diffusion Model
(FG-MDM) for human motion generation. Specifically, we first parse previous
vague textual annotation into fine-grained description of different body parts
by leveraging a large language model (GPT-3.5). We then use these fine-grained
descriptions to guide a transformer-based diffusion model. FG-MDM can generate
fine-grained and stylized motions even outside of the distribution of the
training data. Our experimental results demonstrate the superiority of FG-MDM
over previous methods, especially the strong generalization capability. We will
release our fine-grained textual annotations for HumanML3D and KIT.