Gerando Movimentos Humanos de Alta Granularidade Usando Descrições Refinadas pelo ChatGPT
Generating Fine-Grained Human Motions Using ChatGPT-Refined Descriptions
December 5, 2023
Autores: Xu Shi, Chuanchen Luo, Junran Peng, Hongwen Zhang, Yunlian Sun
cs.AI
Resumo
Recentemente, foram feitos progressos significativos na geração de movimentos humanos baseada em texto, permitindo a criação de movimentos diversos e de alta qualidade que se alinham com descrições textuais. No entanto, ainda é desafiador gerar movimentos refinados ou estilizados devido à falta de conjuntos de dados anotados com descrições textuais detalhadas. Ao adotar uma estratégia de dividir para conquistar, propomos um novo framework chamado Fine-Grained Human Motion Diffusion Model (FG-MDM) para a geração de movimentos humanos. Especificamente, primeiro analisamos anotações textuais vagas anteriores em descrições refinadas de diferentes partes do corpo, utilizando um modelo de linguagem de grande escala (GPT-3.5). Em seguida, usamos essas descrições refinadas para orientar um modelo de difusão baseado em transformers. O FG-MDM é capaz de gerar movimentos refinados e estilizados, mesmo fora da distribuição dos dados de treinamento. Nossos resultados experimentais demonstram a superioridade do FG-MDM em relação a métodos anteriores, destacando especialmente sua forte capacidade de generalização. Disponibilizaremos nossas anotações textuais refinadas para os conjuntos de dados HumanML3D e KIT.
English
Recently, significant progress has been made in text-based motion generation,
enabling the generation of diverse and high-quality human motions that conform
to textual descriptions. However, it remains challenging to generate
fine-grained or stylized motions due to the lack of datasets annotated with
detailed textual descriptions. By adopting a divide-and-conquer strategy, we
propose a new framework named Fine-Grained Human Motion Diffusion Model
(FG-MDM) for human motion generation. Specifically, we first parse previous
vague textual annotation into fine-grained description of different body parts
by leveraging a large language model (GPT-3.5). We then use these fine-grained
descriptions to guide a transformer-based diffusion model. FG-MDM can generate
fine-grained and stylized motions even outside of the distribution of the
training data. Our experimental results demonstrate the superiority of FG-MDM
over previous methods, especially the strong generalization capability. We will
release our fine-grained textual annotations for HumanML3D and KIT.