FrankenMotion: Generazione e Composizione del Movimento Umano a Livello di Parte

Abstract

La generazione di movimento umano a partire da descrizioni testuali ha compiuto progressi notevoli negli ultimi anni. Tuttavia, i metodi esistenti si basano principalmente su descrizioni a livello di sequenza o di azione, a causa dell'assenza di annotazioni dettagliate del movimento a livello di parti del corpo. Ciò ne limita la controllabilità sulle singole parti corporee. In questo lavoro, costruiamo un dataset di movimento di alta qualità con annotazioni testuali atomiche, temporalmente consapevoli e a livello di parte, sfruttando le capacità di ragionamento dei grandi modelli linguistici (LLM). A differenza dei dataset precedenti, che forniscono didascalie di parti sincronizzate con segmenti temporali fissi o si basano esclusivamente su etichette globali di sequenza, il nostro dataset cattura movimenti asincroni e semanticamente distinti delle parti a una risoluzione temporale fine. Basandoci su questo dataset, introduciamo un framework di generazione del movimento basato su diffusione e consapevole delle parti, denominato FrankenMotion, in cui ogni parte del corpo è guidata dal proprio prompt testuale temporalmente strutturato. Questo è, a nostra conoscenza, il primo lavoro a fornire annotazioni atomiche, temporalmente consapevoli a livello di parte e a disporre di un modello che consente la generazione di movimento con controllo sia spaziale (parte del corpo) che temporale (azione atomica). Gli esperimenti dimostrano che FrankenMotion supera tutti i precedenti modelli di base adattati e riaddestrati per la nostra impostazione, e il nostro modello può comporre movimenti non visti durante l'addestramento. Il nostro codice e dataset saranno pubblicamente disponibili alla pubblicazione.

English

Human motion generation from text prompts has made remarkable progress in recent years. However, existing methods primarily rely on either sequence-level or action-level descriptions due to the absence of fine-grained, part-level motion annotations. This limits their controllability over individual body parts. In this work, we construct a high-quality motion dataset with atomic, temporally-aware part-level text annotations, leveraging the reasoning capabilities of large language models (LLMs). Unlike prior datasets that either provide synchronized part captions with fixed time segments or rely solely on global sequence labels, our dataset captures asynchronous and semantically distinct part movements at fine temporal resolution. Based on this dataset, we introduce a diffusion-based part-aware motion generation framework, namely FrankenMotion, where each body part is guided by its own temporally-structured textual prompt. This is, to our knowledge, the first work to provide atomic, temporally-aware part-level motion annotations and have a model that allows motion generation with both spatial (body part) and temporal (atomic action) control. Experiments demonstrate that FrankenMotion outperforms all previous baseline models adapted and retrained for our setting, and our model can compose motions unseen during training. Our code and dataset will be publicly available upon publication.

FrankenMotion: Generazione e Composizione del Movimento Umano a Livello di Parte

FrankenMotion: Part-level Human Motion Generation and Composition

Abstract

Support