ChatPaper.aiChatPaper

Генерация детализированных движений человека с использованием уточненных описаний от ChatGPT

Generating Fine-Grained Human Motions Using ChatGPT-Refined Descriptions

December 5, 2023
Авторы: Xu Shi, Chuanchen Luo, Junran Peng, Hongwen Zhang, Yunlian Sun
cs.AI

Аннотация

В последнее время был достигнут значительный прогресс в генерации движений на основе текста, что позволяет создавать разнообразные и качественные движения человека, соответствующие текстовым описаниям. Однако генерация детализированных или стилизованных движений остается сложной задачей из-за отсутствия наборов данных, аннотированных подробными текстовыми описаниями. Используя стратегию "разделяй и властвуй", мы предлагаем новый подход под названием Fine-Grained Human Motion Diffusion Model (FG-MDM) для генерации движений человека. В частности, мы сначала преобразуем предыдущие расплывчатые текстовые аннотации в детализированные описания различных частей тела с помощью крупной языковой модели (GPT-3.5). Затем мы используем эти детализированные описания для управления трансформерной диффузионной моделью. FG-MDM способна генерировать детализированные и стилизованные движения даже за пределами распределения обучающих данных. Наши экспериментальные результаты демонстрируют превосходство FG-MDM над предыдущими методами, особенно в плане сильной способности к обобщению. Мы опубликуем наши детализированные текстовые аннотации для наборов данных HumanML3D и KIT.
English
Recently, significant progress has been made in text-based motion generation, enabling the generation of diverse and high-quality human motions that conform to textual descriptions. However, it remains challenging to generate fine-grained or stylized motions due to the lack of datasets annotated with detailed textual descriptions. By adopting a divide-and-conquer strategy, we propose a new framework named Fine-Grained Human Motion Diffusion Model (FG-MDM) for human motion generation. Specifically, we first parse previous vague textual annotation into fine-grained description of different body parts by leveraging a large language model (GPT-3.5). We then use these fine-grained descriptions to guide a transformer-based diffusion model. FG-MDM can generate fine-grained and stylized motions even outside of the distribution of the training data. Our experimental results demonstrate the superiority of FG-MDM over previous methods, especially the strong generalization capability. We will release our fine-grained textual annotations for HumanML3D and KIT.
PDF90December 15, 2024