MoMask: Генеративное маскированное моделирование 3D-движений человека
MoMask: Generative Masked Modeling of 3D Human Motions
November 29, 2023
Авторы: Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, Li Cheng
cs.AI
Аннотация
Мы представляем MoMask, новую структуру маскированного моделирования для генерации 3D-движений человека на основе текста. В MoMask используется иерархическая схема квантования для представления движений человека в виде многослойных дискретных токенов с высокой детализацией. Начиная с базового слоя, где последовательность токенов движений получается с помощью векторного квантования, остаточные токены возрастающих порядков вычисляются и сохраняются на последующих слоях иерархии. Затем применяются два различных двунаправленных трансформера. Для токенов движений базового слоя используется Masked Transformer, который на этапе обучения предсказывает случайно замаскированные токены движений на основе текстового ввода. На этапе генерации (т.е. вывода), начиная с пустой последовательности, наш Masked Transformer итеративно заполняет пропущенные токены. После этого Residual Transformer учится постепенно предсказывать токены следующего слоя на основе результатов текущего слоя. Многочисленные эксперименты показывают, что MoMask превосходит современные методы в задаче генерации движений из текста, достигая FID 0.045 (по сравнению с 0.141 у T2M-GPT) на наборе данных HumanML3D и 0.228 (по сравнению с 0.514) на KIT-ML. MoMask также может быть легко применен в связанных задачах без дополнительной тонкой настройки модели, таких как текстово-управляемое временное восстановление.
English
We introduce MoMask, a novel masked modeling framework for text-driven 3D
human motion generation. In MoMask, a hierarchical quantization scheme is
employed to represent human motion as multi-layer discrete motion tokens with
high-fidelity details. Starting at the base layer, with a sequence of motion
tokens obtained by vector quantization, the residual tokens of increasing
orders are derived and stored at the subsequent layers of the hierarchy. This
is consequently followed by two distinct bidirectional transformers. For the
base-layer motion tokens, a Masked Transformer is designated to predict
randomly masked motion tokens conditioned on text input at training stage.
During generation (i.e. inference) stage, starting from an empty sequence, our
Masked Transformer iteratively fills up the missing tokens; Subsequently, a
Residual Transformer learns to progressively predict the next-layer tokens
based on the results from current layer. Extensive experiments demonstrate that
MoMask outperforms the state-of-art methods on the text-to-motion generation
task, with an FID of 0.045 (vs e.g. 0.141 of T2M-GPT) on the HumanML3D dataset,
and 0.228 (vs 0.514) on KIT-ML, respectively. MoMask can also be seamlessly
applied in related tasks without further model fine-tuning, such as text-guided
temporal inpainting.