ФранкенМоушн: Генерация и композиция движения человека на уровне частей тела
FrankenMotion: Part-level Human Motion Generation and Composition
January 15, 2026
Авторы: Chuqiao Li, Xianghui Xie, Yong Cao, Andreas Geiger, Gerard Pons-Moll
cs.AI
Аннотация
Генерация движений человека из текстовых промптов достигла значительного прогресса в последние годы. Однако существующие методы в основном опираются на описания на уровне последовательности или действия из-за отсутствия детализированных аннотаций движений на уровне частей тела. Это ограничивает их управляемость отдельными частями тела. В данной работе мы создаем высококачественный датасет движений с атомарными, временно-ориентированными текстовыми аннотациями на уровне частей, используя аналитические способности больших языковых моделей (LLM). В отличие от предыдущих датасетов, которые либо предоставляют синхронизированные описания частей с фиксированными временными сегментами, либо полагаются исключительно на глобальные метки последовательностей, наш датасет фиксирует асинхронные и семантически различные движения частей с высоким временным разрешением. На основе этого датасета мы представляем диффузионную систему генерации движений с учетом частей тела, названную FrankenMotion, где каждая часть тела управляется своим собственным временно-структурированным текстовым промптом. Насколько нам известно, это первая работа, предоставляющая атомарные, временно-ориентированные аннотации движений на уровне частей тела и имеющая модель, которая позволяет генерировать движения с одновременным контролем как в пространственной (часть тела), так и во временной (атомарное действие) областях. Эксперименты демонстрируют, что FrankenMotion превосходит все предыдущие базовые модели, адаптированные и переобученные для наших условий, и наша модель может комбинировать движения, не встречавшиеся во время обучения. Наш код и датасет будут общедоступны после публикации.
English
Human motion generation from text prompts has made remarkable progress in recent years. However, existing methods primarily rely on either sequence-level or action-level descriptions due to the absence of fine-grained, part-level motion annotations. This limits their controllability over individual body parts. In this work, we construct a high-quality motion dataset with atomic, temporally-aware part-level text annotations, leveraging the reasoning capabilities of large language models (LLMs). Unlike prior datasets that either provide synchronized part captions with fixed time segments or rely solely on global sequence labels, our dataset captures asynchronous and semantically distinct part movements at fine temporal resolution. Based on this dataset, we introduce a diffusion-based part-aware motion generation framework, namely FrankenMotion, where each body part is guided by its own temporally-structured textual prompt. This is, to our knowledge, the first work to provide atomic, temporally-aware part-level motion annotations and have a model that allows motion generation with both spatial (body part) and temporal (atomic action) control. Experiments demonstrate that FrankenMotion outperforms all previous baseline models adapted and retrained for our setting, and our model can compose motions unseen during training. Our code and dataset will be publicly available upon publication.