フランケン・モーション:パート単位の人体動作生成と合成
FrankenMotion: Part-level Human Motion Generation and Composition
January 15, 2026
著者: Chuqiao Li, Xianghui Xie, Yong Cao, Andreas Geiger, Gerard Pons-Moll
cs.AI
要旨
人間の動作生成は、テキストプロンプトからの生成において近年著しい進歩を遂げています。しかし、既存手法は細粒度の部位レベルでの動作注釈が存在しないため、主にシーケンスレベルまたはアクションレベルの記述に依存しています。これにより、個別の身体部位に対する制御性が制限されています。本研究では、大規模言語モデル(LLM)の推論能力を活用し、原子的で時間認識のある部位レベルのテキスト注釈を付与した高品質な動作データセットを構築します。固定時間セグメントで同期化された部位キャプションを提供するか、グローバルなシーケンスラベルのみに依存する従来のデータセットとは異なり、本データセットは細かな時間解像度で非同期かつ意味的に区別された部位の動きを捉えています。このデータセットに基づき、拡散モデルベースの部位認識動作生成フレームワーク「FrankenMotion」を提案します。このフレームワークでは、各身体部位が独自の時間構造化されたテキストプロンプトによって誘導されます。これは我々の知る限り、原子的で時間認識のある部位レベルの動作注聴を提供し、空間的(身体部位)および時間的(原子的動作)制御を可能にするモデルを実現した初めての研究です。実験により、FrankenMotionが当該設定に適合させ再学習した従来のベースラインモデル全てを凌駕すること、さらに訓練時には未見の動作合成が可能であることを実証します。コードとデータセットは論文公開時に公開予定です。
English
Human motion generation from text prompts has made remarkable progress in recent years. However, existing methods primarily rely on either sequence-level or action-level descriptions due to the absence of fine-grained, part-level motion annotations. This limits their controllability over individual body parts. In this work, we construct a high-quality motion dataset with atomic, temporally-aware part-level text annotations, leveraging the reasoning capabilities of large language models (LLMs). Unlike prior datasets that either provide synchronized part captions with fixed time segments or rely solely on global sequence labels, our dataset captures asynchronous and semantically distinct part movements at fine temporal resolution. Based on this dataset, we introduce a diffusion-based part-aware motion generation framework, namely FrankenMotion, where each body part is guided by its own temporally-structured textual prompt. This is, to our knowledge, the first work to provide atomic, temporally-aware part-level motion annotations and have a model that allows motion generation with both spatial (body part) and temporal (atomic action) control. Experiments demonstrate that FrankenMotion outperforms all previous baseline models adapted and retrained for our setting, and our model can compose motions unseen during training. Our code and dataset will be publicly available upon publication.