FrankenMotion: Op-deel-niveau Menselijke Bewegingsgeneratie en -compositie

Samenvatting

De generatie van menselijke bewegingen op basis van tekstprompts heeft de afgelopen jaren opmerkelijke vooruitgang geboekt. Bestaande methoden zijn echter voornamelijk gebaseerd op beschrijvingen op sequentieniveau of actieniveau, vanwege het ontbreken van fijnmazige, op lichaamsdelen gerichte bewegingsannotaties. Dit beperkt hun bestuurbaarheid over individuele lichaamsdelen. In dit werk construeren we een hoogwaardige bewegingsdataset met atomische, temporeel bewuste tekstannotaties op deel-niveau, waarbij we gebruikmaken van de redeneercapaciteiten van grote taalmmodellen (LLM's). In tegenstelling tot eerdere datasets die ofwel gesynchroniseerde deelbeschrijvingen met vaste tijdsegmenten bieden, of uitsluitend vertrouwen op globale sequentielabels, legt onze dataset asynchrone en semantisch verschillende deelbewegingen vast met een fijne temporele resolutie. Gebaseerd op deze dataset introduceren we een op diffusie gebaseerd, deelbewust bewegingsgeneratieraamwerk, genaamd FrankenMotion, waarbij elk lichaamsdeel wordt gestuurd door zijn eigen temporeel gestructureerde tekstprompt. Dit is, voor zover ons bekend, het eerste werk dat atomische, temporeel bewuste annotaties op deel-niveau biedt en een model heeft dat bewegingen kan genereren met zowel ruimtelijke (lichaamsdeel) als temporele (atomische actie) controle. Experimenten tonen aan dat FrankenMotion alle eerdere basismodellen overtreft die voor onze setting zijn aangepast en hertraind, en dat ons model bewegingen kan samenstellen die niet tijdens de training zijn gezien. Onze code en dataset zullen na publicatie openbaar beschikbaar worden gesteld.

English

Human motion generation from text prompts has made remarkable progress in recent years. However, existing methods primarily rely on either sequence-level or action-level descriptions due to the absence of fine-grained, part-level motion annotations. This limits their controllability over individual body parts. In this work, we construct a high-quality motion dataset with atomic, temporally-aware part-level text annotations, leveraging the reasoning capabilities of large language models (LLMs). Unlike prior datasets that either provide synchronized part captions with fixed time segments or rely solely on global sequence labels, our dataset captures asynchronous and semantically distinct part movements at fine temporal resolution. Based on this dataset, we introduce a diffusion-based part-aware motion generation framework, namely FrankenMotion, where each body part is guided by its own temporally-structured textual prompt. This is, to our knowledge, the first work to provide atomic, temporally-aware part-level motion annotations and have a model that allows motion generation with both spatial (body part) and temporal (atomic action) control. Experiments demonstrate that FrankenMotion outperforms all previous baseline models adapted and retrained for our setting, and our model can compose motions unseen during training. Our code and dataset will be publicly available upon publication.

FrankenMotion: Op-deel-niveau Menselijke Bewegingsgeneratie en -compositie

FrankenMotion: Part-level Human Motion Generation and Composition

Samenvatting

Support