FrankenMotion: Generación y Composición de Movimiento Humano a Nivel de Partes
FrankenMotion: Part-level Human Motion Generation and Composition
January 15, 2026
Autores: Chuqiao Li, Xianghui Xie, Yong Cao, Andreas Geiger, Gerard Pons-Moll
cs.AI
Resumen
La generación de movimiento humano a partir de instrucciones textuales ha logrado un progreso notable en los últimos años. Sin embargo, los métodos existentes se basan principalmente en descripciones a nivel de secuencia o de acción debido a la ausencia de anotaciones de movimiento detalladas a nivel de partes del cuerpo. Esto limita su capacidad de control sobre partes corporales individuales. En este trabajo, construimos un conjunto de datos de movimiento de alta calidad con anotaciones textuales a nivel de partes, atómicas y con conciencia temporal, aprovechando las capacidades de razonamiento de los modelos de lenguaje grandes (LLMs). A diferencia de conjuntos de datos anteriores que proporcionan descripciones de partes sincronizadas con segmentos de tiempo fijos o que dependen únicamente de etiquetas globales de secuencia, nuestro conjunto de datos captura movimientos de partes asíncronos y semánticamente distintos con una resolución temporal fina. Basándonos en este conjunto de datos, presentamos un marco de generación de movimiento consciente de las partes basado en difusión, denominado FrankenMotion, donde cada parte del cuerpo es guiada por su propia instrucción textual con estructura temporal. Este es, hasta donde sabemos, el primer trabajo que proporciona anotaciones de movimiento atómicas, con conciencia temporal y a nivel de partes, y que posee un modelo que permite la generación de movimiento con control tanto espacial (parte del cuerpo) como temporal (acción atómica). Los experimentos demuestran que FrankenMotion supera a todos los modelos base anteriores adaptados y reentrenados para nuestra configuración, y que nuestro modelo puede componer movimientos no vistos durante el entrenamiento. Nuestro código y conjunto de datos estarán disponibles públicamente tras la publicación.
English
Human motion generation from text prompts has made remarkable progress in recent years. However, existing methods primarily rely on either sequence-level or action-level descriptions due to the absence of fine-grained, part-level motion annotations. This limits their controllability over individual body parts. In this work, we construct a high-quality motion dataset with atomic, temporally-aware part-level text annotations, leveraging the reasoning capabilities of large language models (LLMs). Unlike prior datasets that either provide synchronized part captions with fixed time segments or rely solely on global sequence labels, our dataset captures asynchronous and semantically distinct part movements at fine temporal resolution. Based on this dataset, we introduce a diffusion-based part-aware motion generation framework, namely FrankenMotion, where each body part is guided by its own temporally-structured textual prompt. This is, to our knowledge, the first work to provide atomic, temporally-aware part-level motion annotations and have a model that allows motion generation with both spatial (body part) and temporal (atomic action) control. Experiments demonstrate that FrankenMotion outperforms all previous baseline models adapted and retrained for our setting, and our model can compose motions unseen during training. Our code and dataset will be publicly available upon publication.