Generazione di Movimenti Umani ad Alta Risoluzione Utilizzando Descrizioni Raffinate da ChatGPT
Generating Fine-Grained Human Motions Using ChatGPT-Refined Descriptions
December 5, 2023
Autori: Xu Shi, Chuanchen Luo, Junran Peng, Hongwen Zhang, Yunlian Sun
cs.AI
Abstract
Recentemente, sono stati compiuti significativi progressi nella generazione di movimenti basata su testo, consentendo la creazione di movimenti umani diversificati e di alta qualità che si conformano a descrizioni testuali. Tuttavia, rimane una sfida generare movimenti dettagliati o stilizzati a causa della mancanza di dataset annotati con descrizioni testuali dettagliate. Adottando una strategia divide et impera, proponiamo un nuovo framework denominato Fine-Grained Human Motion Diffusion Model (FG-MDM) per la generazione di movimenti umani. Nello specifico, analizziamo prima le precedenti annotazioni testuali vaghe in descrizioni dettagliate di diverse parti del corpo sfruttando un modello linguistico di grandi dimensioni (GPT-3.5). Utilizziamo poi queste descrizioni dettagliate per guidare un modello di diffusione basato su transformer. FG-MDM è in grado di generare movimenti dettagliati e stilizzati anche al di fuori della distribuzione dei dati di addestramento. I nostri risultati sperimentali dimostrano la superiorità di FG-MDM rispetto ai metodi precedenti, in particolare la forte capacità di generalizzazione. Rilasceremo le nostre annotazioni testuali dettagliate per HumanML3D e KIT.
English
Recently, significant progress has been made in text-based motion generation,
enabling the generation of diverse and high-quality human motions that conform
to textual descriptions. However, it remains challenging to generate
fine-grained or stylized motions due to the lack of datasets annotated with
detailed textual descriptions. By adopting a divide-and-conquer strategy, we
propose a new framework named Fine-Grained Human Motion Diffusion Model
(FG-MDM) for human motion generation. Specifically, we first parse previous
vague textual annotation into fine-grained description of different body parts
by leveraging a large language model (GPT-3.5). We then use these fine-grained
descriptions to guide a transformer-based diffusion model. FG-MDM can generate
fine-grained and stylized motions even outside of the distribution of the
training data. Our experimental results demonstrate the superiority of FG-MDM
over previous methods, especially the strong generalization capability. We will
release our fine-grained textual annotations for HumanML3D and KIT.