MotionGPT: Menschliche Bewegung als Fremdsprache
MotionGPT: Human Motion as a Foreign Language
June 26, 2023
Autoren: Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, Tao Chen
cs.AI
Zusammenfassung
Obwohl die Weiterentwicklung vortrainierter großer Sprachmodelle voranschreitet, bleibt die Erforschung eines einheitlichen Modells für Sprache und andere multimodale Daten, wie beispielsweise Bewegung, bisher herausfordernd und unberührt. Glücklicherweise zeigt die menschliche Bewegung eine semantische Kopplung, die der menschlichen Sprache ähnelt und oft als eine Form der Körpersprache wahrgenommen wird. Durch die Fusion von Sprachdaten mit großskaligen Bewegungsmodellen wird ein vortrainiertes Bewegungs-Sprachmodell möglich, das die Leistung bewegungsbezogener Aufgaben verbessern kann. Angetrieben von dieser Erkenntnis schlagen wir MotionGPT vor, ein einheitliches, vielseitiges und benutzerfreundliches Bewegungs-Sprachmodell zur Bewältigung mehrerer bewegungsrelevanter Aufgaben. Konkret verwenden wir die diskrete Vektorquantisierung für menschliche Bewegung und übertragen 3D-Bewegung in Bewegungstokens, ähnlich dem Erzeugungsprozess von Worttokens. Aufbauend auf diesem „Bewegungsvokabular“ führen wir eine Sprachmodellierung sowohl für Bewegung als auch für Text in einheitlicher Weise durch und behandeln menschliche Bewegung als eine spezifische Sprache. Darüber hinaus, inspiriert durch Prompt-Lernen, trainieren wir MotionGPT mit einer Mischung aus Bewegungs-Sprachdaten vor und feintunen es auf prompt-basierten Frage-Antwort-Aufgaben. Umfangreiche Experimente zeigen, dass MotionGPT state-of-the-art Leistungen bei mehreren Bewegungsaufgaben erzielt, einschließlich textgesteuerter Bewegungsgenerierung, Bewegungsbeschreibung, Bewegungsvorhersage und Bewegungsinterpolation.
English
Though the advancement of pre-trained large language models unfolds, the
exploration of building a unified model for language and other multi-modal
data, such as motion, remains challenging and untouched so far. Fortunately,
human motion displays a semantic coupling akin to human language, often
perceived as a form of body language. By fusing language data with large-scale
motion models, motion-language pre-training that can enhance the performance of
motion-related tasks becomes feasible. Driven by this insight, we propose
MotionGPT, a unified, versatile, and user-friendly motion-language model to
handle multiple motion-relevant tasks. Specifically, we employ the discrete
vector quantization for human motion and transfer 3D motion into motion tokens,
similar to the generation process of word tokens. Building upon this "motion
vocabulary", we perform language modeling on both motion and text in a unified
manner, treating human motion as a specific language. Moreover, inspired by
prompt learning, we pre-train MotionGPT with a mixture of motion-language data
and fine-tune it on prompt-based question-and-answer tasks. Extensive
experiments demonstrate that MotionGPT achieves state-of-the-art performances
on multiple motion tasks including text-driven motion generation, motion
captioning, motion prediction, and motion in-between.