Генерация детализированных движений человека с использованием уточненных описаний от ChatGPT
Generating Fine-Grained Human Motions Using ChatGPT-Refined Descriptions
December 5, 2023
Авторы: Xu Shi, Chuanchen Luo, Junran Peng, Hongwen Zhang, Yunlian Sun
cs.AI
Аннотация
В последнее время был достигнут значительный прогресс в генерации движений на основе текста, что позволяет создавать разнообразные и качественные движения человека, соответствующие текстовым описаниям. Однако генерация детализированных или стилизованных движений остается сложной задачей из-за отсутствия наборов данных, аннотированных подробными текстовыми описаниями. Используя стратегию "разделяй и властвуй", мы предлагаем новый подход под названием Fine-Grained Human Motion Diffusion Model (FG-MDM) для генерации движений человека. В частности, мы сначала преобразуем предыдущие расплывчатые текстовые аннотации в детализированные описания различных частей тела с помощью крупной языковой модели (GPT-3.5). Затем мы используем эти детализированные описания для управления трансформерной диффузионной моделью. FG-MDM способна генерировать детализированные и стилизованные движения даже за пределами распределения обучающих данных. Наши экспериментальные результаты демонстрируют превосходство FG-MDM над предыдущими методами, особенно в плане сильной способности к обобщению. Мы опубликуем наши детализированные текстовые аннотации для наборов данных HumanML3D и KIT.
English
Recently, significant progress has been made in text-based motion generation,
enabling the generation of diverse and high-quality human motions that conform
to textual descriptions. However, it remains challenging to generate
fine-grained or stylized motions due to the lack of datasets annotated with
detailed textual descriptions. By adopting a divide-and-conquer strategy, we
propose a new framework named Fine-Grained Human Motion Diffusion Model
(FG-MDM) for human motion generation. Specifically, we first parse previous
vague textual annotation into fine-grained description of different body parts
by leveraging a large language model (GPT-3.5). We then use these fine-grained
descriptions to guide a transformer-based diffusion model. FG-MDM can generate
fine-grained and stylized motions even outside of the distribution of the
training data. Our experimental results demonstrate the superiority of FG-MDM
over previous methods, especially the strong generalization capability. We will
release our fine-grained textual annotations for HumanML3D and KIT.