ChatGPTで洗練された記述を用いた細粒度な人間の動作生成
Generating Fine-Grained Human Motions Using ChatGPT-Refined Descriptions
December 5, 2023
著者: Xu Shi, Chuanchen Luo, Junran Peng, Hongwen Zhang, Yunlian Sun
cs.AI
要旨
最近、テキストベースのモーション生成において大きな進展が見られ、テキスト記述に準拠した多様で高品質な人間のモーションを生成することが可能になりました。しかし、詳細なテキスト記述が付与されたデータセットの不足により、細粒度やスタイル化されたモーションの生成は依然として課題となっています。分割統治戦略を採用することで、我々は人間のモーション生成のための新しいフレームワークであるFine-Grained Human Motion Diffusion Model(FG-MDM)を提案します。具体的には、まず大規模言語モデル(GPT-3.5)を活用して、従来の曖昧なテキスト注釈を身体の異なる部位の細粒度記述に解析します。次に、これらの細粒度記述を用いて、Transformerベースの拡散モデルをガイドします。FG-MDMは、トレーニングデータの分布外であっても、細粒度でスタイル化されたモーションを生成することができます。実験結果は、FG-MDMが従来の手法を凌駕し、特に強力な汎化能力を有することを示しています。我々は、HumanML3DとKITのための細粒度テキスト注釈を公開する予定です。
English
Recently, significant progress has been made in text-based motion generation,
enabling the generation of diverse and high-quality human motions that conform
to textual descriptions. However, it remains challenging to generate
fine-grained or stylized motions due to the lack of datasets annotated with
detailed textual descriptions. By adopting a divide-and-conquer strategy, we
propose a new framework named Fine-Grained Human Motion Diffusion Model
(FG-MDM) for human motion generation. Specifically, we first parse previous
vague textual annotation into fine-grained description of different body parts
by leveraging a large language model (GPT-3.5). We then use these fine-grained
descriptions to guide a transformer-based diffusion model. FG-MDM can generate
fine-grained and stylized motions even outside of the distribution of the
training data. Our experimental results demonstrate the superiority of FG-MDM
over previous methods, especially the strong generalization capability. We will
release our fine-grained textual annotations for HumanML3D and KIT.