MotionGPT: Il Movimento Umano come una Lingua Straniera

Abstract

Sebbene il progresso dei modelli linguistici pre-addestrati di grandi dimensioni continui a evolversi, l'esplorazione della creazione di un modello unificato per il linguaggio e altri dati multimodali, come il movimento, rimane una sfida e un territorio inesplorato fino ad oggi. Fortunatamente, il movimento umano mostra un accoppiamento semantico simile al linguaggio umano, spesso percepito come una forma di linguaggio del corpo. Integrando i dati linguistici con modelli di movimento su larga scala, diventa fattibile un pre-addestramento movimento-linguaggio che può migliorare le prestazioni nei compiti legati al movimento. Spinti da questa intuizione, proponiamo MotionGPT, un modello unificato, versatile e user-friendly per gestire molteplici compiti relativi al movimento. Nello specifico, utilizziamo la quantizzazione vettoriale discreta per il movimento umano e trasformiamo il movimento 3D in token di movimento, simili al processo di generazione dei token di parole. Basandoci su questo "vocabolario del movimento", eseguiamo la modellazione linguistica sia sul movimento che sul testo in modo unificato, trattando il movimento umano come un linguaggio specifico. Inoltre, ispirati dall'apprendimento basato su prompt, pre-addestriamo MotionGPT con una miscela di dati movimento-linguaggio e lo perfezioniamo su compiti di domanda e risposta basati su prompt. Esperimenti estensivi dimostrano che MotionGPT raggiunge prestazioni all'avanguardia in molteplici compiti di movimento, tra cui la generazione di movimento guidata da testo, la descrizione del movimento, la previsione del movimento e l'interpolazione del movimento.

English

Though the advancement of pre-trained large language models unfolds, the exploration of building a unified model for language and other multi-modal data, such as motion, remains challenging and untouched so far. Fortunately, human motion displays a semantic coupling akin to human language, often perceived as a form of body language. By fusing language data with large-scale motion models, motion-language pre-training that can enhance the performance of motion-related tasks becomes feasible. Driven by this insight, we propose MotionGPT, a unified, versatile, and user-friendly motion-language model to handle multiple motion-relevant tasks. Specifically, we employ the discrete vector quantization for human motion and transfer 3D motion into motion tokens, similar to the generation process of word tokens. Building upon this "motion vocabulary", we perform language modeling on both motion and text in a unified manner, treating human motion as a specific language. Moreover, inspired by prompt learning, we pre-train MotionGPT with a mixture of motion-language data and fine-tune it on prompt-based question-and-answer tasks. Extensive experiments demonstrate that MotionGPT achieves state-of-the-art performances on multiple motion tasks including text-driven motion generation, motion captioning, motion prediction, and motion in-between.

MotionGPT: Il Movimento Umano come una Lingua Straniera

MotionGPT: Human Motion as a Foreign Language

Abstract

Support