MotionGPT: Menschliche Bewegung als Fremdsprache

papers.abstract

Obwohl die Weiterentwicklung vortrainierter großer Sprachmodelle voranschreitet, bleibt die Erforschung eines einheitlichen Modells für Sprache und andere multimodale Daten, wie beispielsweise Bewegung, bisher herausfordernd und unberührt. Glücklicherweise zeigt die menschliche Bewegung eine semantische Kopplung, die der menschlichen Sprache ähnelt und oft als eine Form der Körpersprache wahrgenommen wird. Durch die Fusion von Sprachdaten mit großskaligen Bewegungsmodellen wird ein vortrainiertes Bewegungs-Sprachmodell möglich, das die Leistung bewegungsbezogener Aufgaben verbessern kann. Angetrieben von dieser Erkenntnis schlagen wir MotionGPT vor, ein einheitliches, vielseitiges und benutzerfreundliches Bewegungs-Sprachmodell zur Bewältigung mehrerer bewegungsrelevanter Aufgaben. Konkret verwenden wir die diskrete Vektorquantisierung für menschliche Bewegung und übertragen 3D-Bewegung in Bewegungstokens, ähnlich dem Erzeugungsprozess von Worttokens. Aufbauend auf diesem „Bewegungsvokabular“ führen wir eine Sprachmodellierung sowohl für Bewegung als auch für Text in einheitlicher Weise durch und behandeln menschliche Bewegung als eine spezifische Sprache. Darüber hinaus, inspiriert durch Prompt-Lernen, trainieren wir MotionGPT mit einer Mischung aus Bewegungs-Sprachdaten vor und feintunen es auf prompt-basierten Frage-Antwort-Aufgaben. Umfangreiche Experimente zeigen, dass MotionGPT state-of-the-art Leistungen bei mehreren Bewegungsaufgaben erzielt, einschließlich textgesteuerter Bewegungsgenerierung, Bewegungsbeschreibung, Bewegungsvorhersage und Bewegungsinterpolation.

English

Though the advancement of pre-trained large language models unfolds, the exploration of building a unified model for language and other multi-modal data, such as motion, remains challenging and untouched so far. Fortunately, human motion displays a semantic coupling akin to human language, often perceived as a form of body language. By fusing language data with large-scale motion models, motion-language pre-training that can enhance the performance of motion-related tasks becomes feasible. Driven by this insight, we propose MotionGPT, a unified, versatile, and user-friendly motion-language model to handle multiple motion-relevant tasks. Specifically, we employ the discrete vector quantization for human motion and transfer 3D motion into motion tokens, similar to the generation process of word tokens. Building upon this "motion vocabulary", we perform language modeling on both motion and text in a unified manner, treating human motion as a specific language. Moreover, inspired by prompt learning, we pre-train MotionGPT with a mixture of motion-language data and fine-tune it on prompt-based question-and-answer tasks. Extensive experiments demonstrate that MotionGPT achieves state-of-the-art performances on multiple motion tasks including text-driven motion generation, motion captioning, motion prediction, and motion in-between.

MotionGPT: Menschliche Bewegung als Fremdsprache

MotionGPT: Human Motion as a Foreign Language

papers.abstract

Support