MoMask: Generatives Maskiertes Modellieren von 3D-Menschlichen Bewegungen
MoMask: Generative Masked Modeling of 3D Human Motions
November 29, 2023
Autoren: Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Sen Wang, Li Cheng
cs.AI
Zusammenfassung
Wir stellen MoMask vor, ein neuartiges Maskierungsmodellierungsframework für die textgesteuerte 3D-Human-Motion-Generierung. In MoMask wird ein hierarchisches Quantisierungsschema verwendet, um menschliche Bewegungen als mehrschichtige diskrete Bewegungstokens mit hochauflösenden Details darzustellen. Ausgehend von der Basisschicht, mit einer Sequenz von Bewegungstokens, die durch Vektorquantisierung gewonnen werden, werden die Residualltokens zunehmender Ordnungen abgeleitet und in den nachfolgenden Schichten der Hierarchie gespeichert. Darauf folgen zwei unterschiedliche bidirektionale Transformer. Für die Bewegungstokens der Basisschicht wird ein Maskierter Transformer eingesetzt, um zufällig maskierte Bewegungstokens basierend auf Texteingaben während des Trainings vorherzusagen. Während der Generierungsphase (d.h. Inferenz) füllt unser Maskierter Transformer, ausgehend von einer leeren Sequenz, iterativ die fehlenden Tokens auf; anschließend lernt ein Residual Transformer, die Tokens der nächsten Schicht basierend auf den Ergebnissen der aktuellen Schicht progressiv vorherzusagen. Umfangreiche Experimente zeigen, dass MoMask die state-of-the-art Methoden bei der Text-zu-Bewegungs-Generierung übertrifft, mit einem FID von 0,045 (gegenüber z.B. 0,141 von T2M-GPT) auf dem HumanML3D-Datensatz und 0,228 (gegenüber 0,514) auf KIT-ML. MoMask kann auch nahtlos in verwandten Aufgaben ohne weitere Modellfeinabstimmung angewendet werden, wie z.B. textgesteuerte temporale Inpainting.
English
We introduce MoMask, a novel masked modeling framework for text-driven 3D
human motion generation. In MoMask, a hierarchical quantization scheme is
employed to represent human motion as multi-layer discrete motion tokens with
high-fidelity details. Starting at the base layer, with a sequence of motion
tokens obtained by vector quantization, the residual tokens of increasing
orders are derived and stored at the subsequent layers of the hierarchy. This
is consequently followed by two distinct bidirectional transformers. For the
base-layer motion tokens, a Masked Transformer is designated to predict
randomly masked motion tokens conditioned on text input at training stage.
During generation (i.e. inference) stage, starting from an empty sequence, our
Masked Transformer iteratively fills up the missing tokens; Subsequently, a
Residual Transformer learns to progressively predict the next-layer tokens
based on the results from current layer. Extensive experiments demonstrate that
MoMask outperforms the state-of-art methods on the text-to-motion generation
task, with an FID of 0.045 (vs e.g. 0.141 of T2M-GPT) on the HumanML3D dataset,
and 0.228 (vs 0.514) on KIT-ML, respectively. MoMask can also be seamlessly
applied in related tasks without further model fine-tuning, such as text-guided
temporal inpainting.