ChatPaper.aiChatPaper

FrankenMotion: Teilebasierte Erzeugung und Komposition menschlicher Bewegungen

FrankenMotion: Part-level Human Motion Generation and Composition

January 15, 2026
papers.authors: Chuqiao Li, Xianghui Xie, Yong Cao, Andreas Geiger, Gerard Pons-Moll
cs.AI

papers.abstract

Die Erzeugung menschlicher Bewegungen aus Textbeschreibungen hat in den letzten Jahren bemerkenswerte Fortschritte erzielt. Bisherige Methoden stützen sich jedoch hauptsächlich auf Beschreibungen auf Sequenz- oder Aktionsebene, da feingranulare, partielle Bewegungsannotationen fehlen. Dies schränkt ihre Steuerbarkeit über einzelne Körperteile ein. In dieser Arbeit erstellen wir einen hochwertigen Bewegungsdatensatz mit atomaren, zeitlich strukturierten Teilbereichs-Textannotationen, indem wir die Reasoning-Fähigkeiten großer Sprachmodelle (LLMs) nutzen. Im Gegensatz zu früheren Datensätzen, die entweder synchronisierte Teilbereichsbeschreibungen mit festen Zeitsegmenten liefern oder ausschließlich auf globale Sequenzlabels angewiesen sind, erfasst unser Datensatz asynchrone und semantisch distinkte Teilbewegungen mit hoher zeitlicher Auflösung. Aufbauend auf diesem Datensatz stellen wir ein diffusionsbasiertes, teilbereichssensitives Bewegungsgenerierungsframework vor, genannt FrankenMotion, bei dem jedes Körperteil durch seine eigene zeitlich strukturierte Textbeschreibung gesteuert wird. Dies ist unseres Wissens nach die erste Arbeit, die atomare, zeitlich bewusste Teilbereichs-Bewegungsannotationen bereitstellt und ein Modell ermöglicht, das Bewegungsgenerierung mit sowohl räumlicher (Körperteil) als auch zeitlicher (atomare Aktion) Kontrolle erlaubt. Experimente zeigen, dass FrankenMotion alle bisherigen Baseline-Modelle, die für unsere Einstellung adaptiert und neu trainiert wurden, übertrifft und dass unser Modell Bewegungen komponieren kann, die während des Trainings nicht gesehen wurden. Unser Code und Datensatz werden nach der Veröffentlichung öffentlich zugänglich sein.
English
Human motion generation from text prompts has made remarkable progress in recent years. However, existing methods primarily rely on either sequence-level or action-level descriptions due to the absence of fine-grained, part-level motion annotations. This limits their controllability over individual body parts. In this work, we construct a high-quality motion dataset with atomic, temporally-aware part-level text annotations, leveraging the reasoning capabilities of large language models (LLMs). Unlike prior datasets that either provide synchronized part captions with fixed time segments or rely solely on global sequence labels, our dataset captures asynchronous and semantically distinct part movements at fine temporal resolution. Based on this dataset, we introduce a diffusion-based part-aware motion generation framework, namely FrankenMotion, where each body part is guided by its own temporally-structured textual prompt. This is, to our knowledge, the first work to provide atomic, temporally-aware part-level motion annotations and have a model that allows motion generation with both spatial (body part) and temporal (atomic action) control. Experiments demonstrate that FrankenMotion outperforms all previous baseline models adapted and retrained for our setting, and our model can compose motions unseen during training. Our code and dataset will be publicly available upon publication.
PDF102January 20, 2026