MoMask: Modelagem Generativa Mascarada de Movimentos Humanos 3D
MoMask: Generative Masked Modeling of 3D Human Motions
November 29, 2023
Autores: Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, Li Cheng
cs.AI
Resumo
Apresentamos o MoMask, uma nova estrutura de modelagem mascarada para geração de movimento humano 3D orientada por texto. No MoMask, um esquema de quantização hierárquica é empregado para representar o movimento humano como tokens de movimento discretos em múltiplas camadas, com detalhes de alta fidelidade. Começando na camada base, com uma sequência de tokens de movimento obtidos por quantização vetorial, os tokens residuais de ordens crescentes são derivados e armazenados nas camadas subsequentes da hierarquia. Isso é seguido por dois transformadores bidirecionais distintos. Para os tokens de movimento da camada base, um Transformador Mascarado é designado para prever tokens de movimento mascarados aleatoriamente, condicionados à entrada de texto durante a fase de treinamento. Durante a fase de geração (ou seja, inferência), começando a partir de uma sequência vazia, nosso Transformador Mascarado preenche iterativamente os tokens ausentes; Posteriormente, um Transformador Residual aprende a prever progressivamente os tokens da próxima camada com base nos resultados da camada atual. Experimentos extensivos demonstram que o MoMask supera os métodos state-of-the-art na tarefa de geração de texto para movimento, com um FID de 0,045 (vs. por exemplo, 0,141 do T2M-GPT) no conjunto de dados HumanML3D, e 0,228 (vs. 0,514) no KIT-ML, respectivamente. O MoMask também pode ser aplicado de forma contínua em tarefas relacionadas sem ajuste adicional do modelo, como preenchimento temporal guiado por texto.
English
We introduce MoMask, a novel masked modeling framework for text-driven 3D
human motion generation. In MoMask, a hierarchical quantization scheme is
employed to represent human motion as multi-layer discrete motion tokens with
high-fidelity details. Starting at the base layer, with a sequence of motion
tokens obtained by vector quantization, the residual tokens of increasing
orders are derived and stored at the subsequent layers of the hierarchy. This
is consequently followed by two distinct bidirectional transformers. For the
base-layer motion tokens, a Masked Transformer is designated to predict
randomly masked motion tokens conditioned on text input at training stage.
During generation (i.e. inference) stage, starting from an empty sequence, our
Masked Transformer iteratively fills up the missing tokens; Subsequently, a
Residual Transformer learns to progressively predict the next-layer tokens
based on the results from current layer. Extensive experiments demonstrate that
MoMask outperforms the state-of-art methods on the text-to-motion generation
task, with an FID of 0.045 (vs e.g. 0.141 of T2M-GPT) on the HumanML3D dataset,
and 0.228 (vs 0.514) on KIT-ML, respectively. MoMask can also be seamlessly
applied in related tasks without further model fine-tuning, such as text-guided
temporal inpainting.