ChatPaper.aiChatPaper

FrankenMotion : Génération et composition de mouvements humains au niveau des parties

FrankenMotion: Part-level Human Motion Generation and Composition

January 15, 2026
papers.authors: Chuqiao Li, Xianghui Xie, Yong Cao, Andreas Geiger, Gerard Pons-Moll
cs.AI

papers.abstract

La génération de mouvements humains à partir de prompts textuels a réalisé des progrès remarquables ces dernières années. Cependant, les méthodes existantes reposent principalement sur des descriptions au niveau de la séquence ou de l'action en raison de l'absence d'annotations motionnelles fines au niveau des parties du corps. Cela limite leur contrôlabilité sur les parties individuelles du corps. Dans ce travail, nous construisons un jeu de données motionnel de haute qualité avec des annotations textuelles atomiques et temporellement conscientes au niveau des parties, en exploitant les capacités de raisonnement des grands modèles de langage (LLM). Contrairement aux jeux de données antérieurs qui fournissent soit des descriptions de parties synchronisées avec des segments temporels fixes, soit reposent uniquement sur des étiquettes globales de séquence, notre jeu de données capture des mouvements de parties asynchrones et sémantiquement distincts à une résolution temporelle fine. Sur la base de ce jeu de données, nous introduisons un framework de génération de mouvement sensible aux parties basé sur la diffusion, nommé FrankenMotion, où chaque partie du corps est guidée par son propre prompt textuel temporellement structuré. À notre connaissance, il s'agit du premier travail à fournir des annotations motionnelles atomiques et temporellement conscientes au niveau des parties et à proposer un modèle permettant la génération de mouvements avec un contrôle à la fois spatial (partie du corps) et temporel (action atomique). Les expériences démontrent que FrankenMotion surpasse tous les modèles de référence antérieurs adaptés et réentraînés pour notre configuration, et notre modèle peut composer des mouvements non vus pendant l'entraînement. Notre code et notre jeu de données seront rendus publics après la publication.
English
Human motion generation from text prompts has made remarkable progress in recent years. However, existing methods primarily rely on either sequence-level or action-level descriptions due to the absence of fine-grained, part-level motion annotations. This limits their controllability over individual body parts. In this work, we construct a high-quality motion dataset with atomic, temporally-aware part-level text annotations, leveraging the reasoning capabilities of large language models (LLMs). Unlike prior datasets that either provide synchronized part captions with fixed time segments or rely solely on global sequence labels, our dataset captures asynchronous and semantically distinct part movements at fine temporal resolution. Based on this dataset, we introduce a diffusion-based part-aware motion generation framework, namely FrankenMotion, where each body part is guided by its own temporally-structured textual prompt. This is, to our knowledge, the first work to provide atomic, temporally-aware part-level motion annotations and have a model that allows motion generation with both spatial (body part) and temporal (atomic action) control. Experiments demonstrate that FrankenMotion outperforms all previous baseline models adapted and retrained for our setting, and our model can compose motions unseen during training. Our code and dataset will be publicly available upon publication.
PDF102January 20, 2026