MotionGPT: 미세 조정된 LLM은 범용 모션 생성기입니다
MotionGPT: Finetuned LLMs are General-Purpose Motion Generators
June 19, 2023
저자: Yaqi Zhang, Di Huang, Bin Liu, Shixiang Tang, Yan Lu, Lu Chen, Lei Bai, Qi Chu, Nenghai Yu, Wanli Ouyang
cs.AI
초록
주어진 동작 설명으로부터 현실적인 인간 동작을 생성하는 기술은 디지털 휴먼에 대한 요구가 증가함에 따라 상당한 발전을 이루어 왔다. 최근 연구들은 텍스트 기반 동작 설명에서 직접 동작을 생성하는 데 있어 인상적인 결과를 달성했지만, 이러한 연구들은 종종 단일 형태의 제어 신호만을 지원하여 실제 디지털 휴먼 산업에서의 적용이 제한적이었다. 본 논문은 다중 모달 제어 신호(예: 텍스트 및 단일 프레임 포즈)를 활용하여 연속적인 인간 동작을 생성할 수 있는 Motion General-Purpose generaTor(MotionGPT)를 제안한다. 이를 위해 다중 모달 신호를 대형 언어 모델(LLM)의 특수 입력 토큰으로 처리한다. 구체적으로, 우리는 먼저 다중 모달 제어 신호를 이산 코드로 양자화한 후 이를 통합된 프롬프트 지시문으로 구성하여 LLM이 동작 답변을 생성하도록 요청한다. 우리의 MotionGPT는 LLM 매개변수의 단 0.4%만을 조정하여 다중 모달 제어 신호를 통합한 인간 동작 생성 모델을 보여준다. 우리가 아는 한, MotionGPT는 다중 모달 제어 신호를 통해 인간 동작을 생성하는 첫 번째 방법으로, 이 새로운 방향에 대한 통찰을 제공할 수 있기를 기대한다. 코드는 논문 수락 시 공개될 예정이다.
English
Generating realistic human motion from given action descriptions has
experienced significant advancements because of the emerging requirement of
digital humans. While recent works have achieved impressive results in
generating motion directly from textual action descriptions, they often support
only a single modality of the control signal, which limits their application in
the real digital human industry. This paper presents a Motion General-Purpose
generaTor (MotionGPT) that can use multimodal control signals, e.g., text and
single-frame poses, for generating consecutive human motions by treating
multimodal signals as special input tokens in large language models (LLMs).
Specifically, we first quantize multimodal control signals into discrete codes
and then formulate them in a unified prompt instruction to ask the LLMs to
generate the motion answer. Our MotionGPT demonstrates a unified human motion
generation model with multimodal control signals by tuning a mere 0.4% of LLM
parameters. To the best of our knowledge, MotionGPT is the first method to
generate human motion by multimodal control signals, which we hope can shed
light on this new direction. Codes shall be released upon acceptance.