MoMask: 3D 인간 동작의 생성형 마스크 모델링
MoMask: Generative Masked Modeling of 3D Human Motions
November 29, 2023
저자: Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, Li Cheng
cs.AI
초록
본 논문에서는 텍스트 기반 3D 인간 동작 생성을 위한 새로운 마스크 모델링 프레임워크인 MoMask를 소개합니다. MoMask에서는 계층적 양자화 기법을 사용하여 인간 동작을 고해상도 디테일을 가진 다층 이산 동작 토큰으로 표현합니다. 기본 층에서 시작하여 벡터 양자화를 통해 얻은 동작 토큰 시퀀스를 기반으로, 증가하는 차수의 잔차 토큰을 도출하고 계층 구조의 후속 층에 저장합니다. 이어서 두 가지의 독립적인 양방향 트랜스포머가 사용됩니다. 기본 층 동작 토큰의 경우, 마스크 트랜스포머가 학습 단계에서 텍스트 입력을 조건으로 무작위로 마스킹된 동작 토큰을 예측하도록 지정됩니다. 생성(즉, 추론) 단계에서는 빈 시퀀스에서 시작하여 마스크 트랜스포머가 누락된 토큰을 반복적으로 채워 넣습니다. 이후, 잔차 트랜스포머는 현재 층의 결과를 기반으로 다음 층의 토큰을 점진적으로 예측하도록 학습합니다. 광범위한 실험 결과, MoMask는 텍스트-투-모션 생성 작업에서 최신 방법들을 능가하는 성능을 보였으며, HumanML3D 데이터셋에서 FID 0.045(T2M-GPT의 0.141 대비), KIT-ML 데이터셋에서 0.228(0.514 대비)을 기록했습니다. 또한 MoMask는 추가 모델 미세 조정 없이도 텍스트 기반 시간적 인페인팅과 같은 관련 작업에 원활하게 적용될 수 있습니다.
English
We introduce MoMask, a novel masked modeling framework for text-driven 3D
human motion generation. In MoMask, a hierarchical quantization scheme is
employed to represent human motion as multi-layer discrete motion tokens with
high-fidelity details. Starting at the base layer, with a sequence of motion
tokens obtained by vector quantization, the residual tokens of increasing
orders are derived and stored at the subsequent layers of the hierarchy. This
is consequently followed by two distinct bidirectional transformers. For the
base-layer motion tokens, a Masked Transformer is designated to predict
randomly masked motion tokens conditioned on text input at training stage.
During generation (i.e. inference) stage, starting from an empty sequence, our
Masked Transformer iteratively fills up the missing tokens; Subsequently, a
Residual Transformer learns to progressively predict the next-layer tokens
based on the results from current layer. Extensive experiments demonstrate that
MoMask outperforms the state-of-art methods on the text-to-motion generation
task, with an FID of 0.045 (vs e.g. 0.141 of T2M-GPT) on the HumanML3D dataset,
and 0.228 (vs 0.514) on KIT-ML, respectively. MoMask can also be seamlessly
applied in related tasks without further model fine-tuning, such as text-guided
temporal inpainting.