Erzeugung fein abgestufter menschlicher Bewegungen mithilfe von ChatGPT-verfeinerten Beschreibungen
Generating Fine-Grained Human Motions Using ChatGPT-Refined Descriptions
December 5, 2023
Autoren: Xu Shi, Chuanchen Luo, Junran Peng, Hongwen Zhang, Yunlian Sun
cs.AI
Zusammenfassung
In jüngster Zeit wurden bedeutende Fortschritte in der textbasierten Bewegungsgenerierung erzielt, die es ermöglichen, vielfältige und hochwertige menschliche Bewegungen zu erzeugen, die textuellen Beschreibungen entsprechen. Es bleibt jedoch eine Herausforderung, fein abgestufte oder stilisierte Bewegungen zu generieren, da es an Datensätzen mangelt, die mit detaillierten textuellen Beschreibungen annotiert sind. Durch die Anwendung einer Divide-and-Conquer-Strategie schlagen wir ein neues Framework namens Fine-Grained Human Motion Diffusion Model (FG-MDM) für die menschliche Bewegungsgenerierung vor. Konkret parsen wir zunächst frühere vage textuelle Annotationen in fein abgestufte Beschreibungen verschiedener Körperteile, indem wir ein großes Sprachmodell (GPT-3.5) nutzen. Anschließend verwenden wir diese fein abgestuften Beschreibungen, um ein transformer-basiertes Diffusionsmodell zu steuern. FG-MDM kann fein abgestufte und stilisierte Bewegungen erzeugen, selbst außerhalb der Verteilung der Trainingsdaten. Unsere experimentellen Ergebnisse demonstrieren die Überlegenheit von FG-MDM gegenüber früheren Methoden, insbesondere die starke Generalisierungsfähigkeit. Wir werden unsere fein abgestuften textuellen Annotationen für HumanML3D und KIT veröffentlichen.
English
Recently, significant progress has been made in text-based motion generation,
enabling the generation of diverse and high-quality human motions that conform
to textual descriptions. However, it remains challenging to generate
fine-grained or stylized motions due to the lack of datasets annotated with
detailed textual descriptions. By adopting a divide-and-conquer strategy, we
propose a new framework named Fine-Grained Human Motion Diffusion Model
(FG-MDM) for human motion generation. Specifically, we first parse previous
vague textual annotation into fine-grained description of different body parts
by leveraging a large language model (GPT-3.5). We then use these fine-grained
descriptions to guide a transformer-based diffusion model. FG-MDM can generate
fine-grained and stylized motions even outside of the distribution of the
training data. Our experimental results demonstrate the superiority of FG-MDM
over previous methods, especially the strong generalization capability. We will
release our fine-grained textual annotations for HumanML3D and KIT.