ChatPaper.aiChatPaper

MoMask: Modelado Generativo Enmascarado de Movimientos Humanos en 3D

MoMask: Generative Masked Modeling of 3D Human Motions

November 29, 2023
Autores: Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, Li Cheng
cs.AI

Resumen

Presentamos MoMask, un novedoso marco de modelado enmascarado para la generación de movimiento humano 3D guiado por texto. En MoMask, se emplea un esquema de cuantización jerárquica para representar el movimiento humano como tokens de movimiento multicapa con detalles de alta fidelidad. Comenzando en la capa base, con una secuencia de tokens de movimiento obtenidos mediante cuantización vectorial, se derivan y almacenan los tokens residuales de órdenes crecientes en las capas subsiguientes de la jerarquía. Esto es seguido por dos transformadores bidireccionales distintos. Para los tokens de movimiento de la capa base, se designa un Transformer Enmascarado para predecir tokens de movimiento enmascarados aleatoriamente condicionados por la entrada de texto durante la etapa de entrenamiento. Durante la etapa de generación (es decir, inferencia), comenzando desde una secuencia vacía, nuestro Transformer Enmascarado llena iterativamente los tokens faltantes; posteriormente, un Transformer Residual aprende a predecir progresivamente los tokens de la siguiente capa basándose en los resultados de la capa actual. Experimentos extensivos demuestran que MoMask supera a los métodos más avanzados en la tarea de generación de movimiento a partir de texto, con un FID de 0.045 (frente a, por ejemplo, 0.141 de T2M-GPT) en el conjunto de datos HumanML3D, y 0.228 (frente a 0.514) en KIT-ML, respectivamente. MoMask también puede aplicarse sin problemas en tareas relacionadas sin necesidad de ajuste adicional del modelo, como la restauración temporal guiada por texto.
English
We introduce MoMask, a novel masked modeling framework for text-driven 3D human motion generation. In MoMask, a hierarchical quantization scheme is employed to represent human motion as multi-layer discrete motion tokens with high-fidelity details. Starting at the base layer, with a sequence of motion tokens obtained by vector quantization, the residual tokens of increasing orders are derived and stored at the subsequent layers of the hierarchy. This is consequently followed by two distinct bidirectional transformers. For the base-layer motion tokens, a Masked Transformer is designated to predict randomly masked motion tokens conditioned on text input at training stage. During generation (i.e. inference) stage, starting from an empty sequence, our Masked Transformer iteratively fills up the missing tokens; Subsequently, a Residual Transformer learns to progressively predict the next-layer tokens based on the results from current layer. Extensive experiments demonstrate that MoMask outperforms the state-of-art methods on the text-to-motion generation task, with an FID of 0.045 (vs e.g. 0.141 of T2M-GPT) on the HumanML3D dataset, and 0.228 (vs 0.514) on KIT-ML, respectively. MoMask can also be seamlessly applied in related tasks without further model fine-tuning, such as text-guided temporal inpainting.
PDF181December 15, 2024