Generación de Movimientos Humanos de Grano Fino Utilizando Descripciones Refinadas por ChatGPT
Generating Fine-Grained Human Motions Using ChatGPT-Refined Descriptions
December 5, 2023
Autores: Xu Shi, Chuanchen Luo, Junran Peng, Hongwen Zhang, Yunlian Sun
cs.AI
Resumen
Recientemente, se han logrado avances significativos en la generación de movimientos basada en texto, permitiendo la creación de movimientos humanos diversos y de alta calidad que se ajustan a descripciones textuales. Sin embargo, sigue siendo un desafío generar movimientos detallados o estilizados debido a la falta de conjuntos de datos anotados con descripciones textuales detalladas. Al adoptar una estrategia de divide y vencerás, proponemos un nuevo marco denominado Modelo de Difusión de Movimiento Humano de Grano Fino (FG-MDM) para la generación de movimientos humanos. Específicamente, primero analizamos las anotaciones textuales vagas previas en descripciones detalladas de diferentes partes del cuerpo utilizando un modelo de lenguaje grande (GPT-3.5). Luego, utilizamos estas descripciones detalladas para guiar un modelo de difusión basado en transformadores. FG-MDM puede generar movimientos detallados y estilizados incluso fuera de la distribución de los datos de entrenamiento. Nuestros resultados experimentales demuestran la superioridad de FG-MDM sobre métodos anteriores, especialmente en su fuerte capacidad de generalización. Publicaremos nuestras anotaciones textuales detalladas para HumanML3D y KIT.
English
Recently, significant progress has been made in text-based motion generation,
enabling the generation of diverse and high-quality human motions that conform
to textual descriptions. However, it remains challenging to generate
fine-grained or stylized motions due to the lack of datasets annotated with
detailed textual descriptions. By adopting a divide-and-conquer strategy, we
propose a new framework named Fine-Grained Human Motion Diffusion Model
(FG-MDM) for human motion generation. Specifically, we first parse previous
vague textual annotation into fine-grained description of different body parts
by leveraging a large language model (GPT-3.5). We then use these fine-grained
descriptions to guide a transformer-based diffusion model. FG-MDM can generate
fine-grained and stylized motions even outside of the distribution of the
training data. Our experimental results demonstrate the superiority of FG-MDM
over previous methods, especially the strong generalization capability. We will
release our fine-grained textual annotations for HumanML3D and KIT.