MotionGPT: 인간 동작을 외국어로 표현하기
MotionGPT: Human Motion as a Foreign Language
June 26, 2023
저자: Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, Tao Chen
cs.AI
초록
사전 학습된 대규모 언어 모델의 발전이 이루어지고 있음에도 불구하고, 언어와 모션과 같은 다중 모달 데이터를 통합한 모델을 구축하는 탐구는 여전히 도전적이며 아직까지 손대지 않은 영역으로 남아 있습니다. 다행히도, 인간의 모션은 인간의 언어와 유사한 의미론적 결합을 보여주며, 종종 신체 언어의 한 형태로 인식됩니다. 언어 데이터를 대규모 모션 모델과 융합함으로써, 모션 관련 작업의 성능을 향상시킬 수 있는 모션-언어 사전 학습이 가능해집니다. 이러한 통찰에 기반하여, 우리는 다중 모션 관련 작업을 처리하기 위한 통합적이고 다용도이며 사용자 친화적인 모션-언어 모델인 MotionGPT를 제안합니다. 구체적으로, 우리는 인간 모션을 위한 이산 벡터 양자화를 사용하고 3D 모션을 단어 토큰 생성 과정과 유사한 모션 토큰으로 변환합니다. 이 "모션 어휘"를 기반으로, 우리는 인간 모션을 특정 언어로 취급하여 모션과 텍스트에 대해 통합적인 방식으로 언어 모델링을 수행합니다. 또한, 프롬프트 학습에서 영감을 받아, 우리는 모션-언어 데이터의 혼합으로 MotionGPT를 사전 학습하고 프롬프트 기반 질문-답변 작업에 대해 미세 조정합니다. 광범위한 실험을 통해 MotionGPT가 텍스트 기반 모션 생성, 모션 캡셔닝, 모션 예측, 모션 중간 생성을 포함한 다중 모션 작업에서 최첨단 성능을 달성함을 입증합니다.
English
Though the advancement of pre-trained large language models unfolds, the
exploration of building a unified model for language and other multi-modal
data, such as motion, remains challenging and untouched so far. Fortunately,
human motion displays a semantic coupling akin to human language, often
perceived as a form of body language. By fusing language data with large-scale
motion models, motion-language pre-training that can enhance the performance of
motion-related tasks becomes feasible. Driven by this insight, we propose
MotionGPT, a unified, versatile, and user-friendly motion-language model to
handle multiple motion-relevant tasks. Specifically, we employ the discrete
vector quantization for human motion and transfer 3D motion into motion tokens,
similar to the generation process of word tokens. Building upon this "motion
vocabulary", we perform language modeling on both motion and text in a unified
manner, treating human motion as a specific language. Moreover, inspired by
prompt learning, we pre-train MotionGPT with a mixture of motion-language data
and fine-tune it on prompt-based question-and-answer tasks. Extensive
experiments demonstrate that MotionGPT achieves state-of-the-art performances
on multiple motion tasks including text-driven motion generation, motion
captioning, motion prediction, and motion in-between.