MoMask: Generatief Gemaskerd Modelleren van 3D Menselijke Bewegingen
MoMask: Generative Masked Modeling of 3D Human Motions
November 29, 2023
Auteurs: Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, Li Cheng
cs.AI
Samenvatting
We introduceren MoMask, een nieuw gemaskerd modelleerkader voor tekstgestuurde 3D-menselijke bewegingsgeneratie. In MoMask wordt een hiërarchisch kwantiseringsschema gebruikt om menselijke beweging weer te geven als meerlagige discrete bewegings-tokens met hoogwaardige details. Beginnend bij de basislaag, wordt een reeks bewegings-tokens verkregen door vector-kwantisering, waarna de residu-tokens van toenemende ordes worden afgeleid en opgeslagen in de daaropvolgende lagen van de hiërarchie. Dit wordt gevolgd door twee afzonderlijke bidirectionele transformers. Voor de bewegings-tokens van de basislaag is een Masked Transformer aangewezen om willekeurig gemaskeerde bewegings-tokens te voorspellen, geconditioneerd op tekstinput tijdens de trainingsfase. Tijdens de generatiefase (d.w.z. inferentie) vult onze Masked Transformer, startend vanuit een lege reeks, iteratief de ontbrekende tokens in; Vervolgens leert een Residual Transformer om progressief de tokens van de volgende laag te voorspellen op basis van de resultaten van de huidige laag. Uitgebreide experimenten tonen aan dat MoMask de state-of-the-art methoden overtreft op de taak van tekst-naar-beweging generatie, met een FID van 0.045 (vergeleken met bijvoorbeeld 0.141 van T2M-GPT) op de HumanML3D dataset, en 0.228 (vergeleken met 0.514) op KIT-ML. MoMask kan ook naadloos worden toegepast in gerelateerde taken zonder verdere model-finetuning, zoals tekstgeleide temporele inpainting.
English
We introduce MoMask, a novel masked modeling framework for text-driven 3D
human motion generation. In MoMask, a hierarchical quantization scheme is
employed to represent human motion as multi-layer discrete motion tokens with
high-fidelity details. Starting at the base layer, with a sequence of motion
tokens obtained by vector quantization, the residual tokens of increasing
orders are derived and stored at the subsequent layers of the hierarchy. This
is consequently followed by two distinct bidirectional transformers. For the
base-layer motion tokens, a Masked Transformer is designated to predict
randomly masked motion tokens conditioned on text input at training stage.
During generation (i.e. inference) stage, starting from an empty sequence, our
Masked Transformer iteratively fills up the missing tokens; Subsequently, a
Residual Transformer learns to progressively predict the next-layer tokens
based on the results from current layer. Extensive experiments demonstrate that
MoMask outperforms the state-of-art methods on the text-to-motion generation
task, with an FID of 0.045 (vs e.g. 0.141 of T2M-GPT) on the HumanML3D dataset,
and 0.228 (vs 0.514) on KIT-ML, respectively. MoMask can also be seamlessly
applied in related tasks without further model fine-tuning, such as text-guided
temporal inpainting.