MoMask: 3D人体モーションの生成的マスクモデリング
MoMask: Generative Masked Modeling of 3D Human Motions
November 29, 2023
著者: Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, Li Cheng
cs.AI
要旨
我々は、テキスト駆動型3D人間モーション生成のための新しいマスクモデリングフレームワークであるMoMaskを紹介する。MoMaskでは、階層的な量子化スキームを採用し、高忠実度の詳細を持つ多層の離散モーショントークンとして人間の動きを表現する。ベースレイヤーから始まり、ベクトル量子化によって得られたモーショントークンのシーケンスに基づいて、増加する次数の残差トークンが導出され、階層の後続のレイヤーに保存される。これに続いて、2つの異なる双方向トランスフォーマーが使用される。ベースレイヤーのモーショントークンに対しては、Masked Transformerが指定され、トレーニング段階でテキスト入力を条件としてランダムにマスクされたモーショントークンを予測する。生成(すなわち推論)段階では、空のシーケンスから始めて、我々のMasked Transformerが欠落したトークンを反復的に埋めていく。その後、Residual Transformerが現在のレイヤーの結果に基づいて次のレイヤーのトークンを段階的に予測することを学習する。広範な実験により、MoMaskがテキストからモーション生成タスクにおいて最先端の手法を上回ることが示されており、HumanML3DデータセットではFIDが0.045(例えばT2M-GPTの0.141に対して)、KIT-MLでは0.228(0.514に対して)を達成している。MoMaskは、テキストガイドによる時間的インペインティングなどの関連タスクにも、追加のモデルファインチューニングなしでシームレスに適用することができる。
English
We introduce MoMask, a novel masked modeling framework for text-driven 3D
human motion generation. In MoMask, a hierarchical quantization scheme is
employed to represent human motion as multi-layer discrete motion tokens with
high-fidelity details. Starting at the base layer, with a sequence of motion
tokens obtained by vector quantization, the residual tokens of increasing
orders are derived and stored at the subsequent layers of the hierarchy. This
is consequently followed by two distinct bidirectional transformers. For the
base-layer motion tokens, a Masked Transformer is designated to predict
randomly masked motion tokens conditioned on text input at training stage.
During generation (i.e. inference) stage, starting from an empty sequence, our
Masked Transformer iteratively fills up the missing tokens; Subsequently, a
Residual Transformer learns to progressively predict the next-layer tokens
based on the results from current layer. Extensive experiments demonstrate that
MoMask outperforms the state-of-art methods on the text-to-motion generation
task, with an FID of 0.045 (vs e.g. 0.141 of T2M-GPT) on the HumanML3D dataset,
and 0.228 (vs 0.514) on KIT-ML, respectively. MoMask can also be seamlessly
applied in related tasks without further model fine-tuning, such as text-guided
temporal inpainting.