Mogo: RQ Hierarchischer Kausaler Transformer für die hochwertige Generierung von 3D-Menschbewegungen
Mogo: RQ Hierarchical Causal Transformer for High-Quality 3D Human Motion Generation
December 5, 2024
Autoren: Dongjie Fu
cs.AI
Zusammenfassung
Im Bereich der Text-zu-Bewegung-Generierung erzeugen Bert-typische Maskenmodelle (MoMask, MMM) derzeit qualitativ hochwertigere Ergebnisse im Vergleich zu autoregressiven Modellen vom Typ GPT (T2M-GPT). Allerdings fehlt es diesen Bert-typischen Modellen oft an der Streaming-Ausgabefähigkeit, die für Anwendungen in Videospielen und Multimedia-Umgebungen erforderlich ist, eine Funktion, die den GPT-typischen Modellen innewohnt. Darüber hinaus zeigen sie eine schwächere Leistung bei der Generierung außerhalb der Verteilung. Um die Qualität der BERT-typischen Modelle zu übertreffen und dabei eine GPT-typische Struktur zu nutzen, ohne zusätzliche Verfeinerungsmodelle hinzuzufügen, die die Skalierung von Daten komplizieren, schlagen wir eine neuartige Architektur vor, Mogo (Motion Only Generate Once), die hochwertige realistische 3D-Bewegungen durch das Training eines einzigen Transformer-Modells erzeugt. Mogo besteht nur aus zwei Hauptkomponenten: 1) RVQ-VAE, einem hierarchischen Restvektor-Quantisierungsvariationalautoencoder, der kontinuierliche Bewegungssequenzen mit hoher Präzision diskretisiert; 2) Hierarchical Causal Transformer, der für die Generierung der Basisbewegungssequenzen in einer autoregressiven Weise verantwortlich ist, während er gleichzeitig Residuen über verschiedene Schichten hinweg ableitet. Experimentelle Ergebnisse zeigen, dass Mogo kontinuierliche und zyklische Bewegungssequenzen von bis zu 260 Frames (13 Sekunden) generieren kann, womit die Längenbeschränkung von 196 Frames (10 Sekunden) bestehender Datensätze wie HumanML3D übertroffen wird. Auf dem HumanML3D-Testset erzielt Mogo einen FID-Score von 0,079 und übertrifft damit sowohl das GPT-typische Modell T2M-GPT (FID = 0,116), AttT2M (FID = 0,112) als auch das BERT-typische Modell MMM (FID = 0,080). Darüber hinaus erreicht unser Modell die beste quantitative Leistung bei der Generierung außerhalb der Verteilung.
English
In the field of text-to-motion generation, Bert-type Masked Models (MoMask,
MMM) currently produce higher-quality outputs compared to GPT-type
autoregressive models (T2M-GPT). However, these Bert-type models often lack the
streaming output capability required for applications in video game and
multimedia environments, a feature inherent to GPT-type models. Additionally,
they demonstrate weaker performance in out-of-distribution generation. To
surpass the quality of BERT-type models while leveraging a GPT-type structure,
without adding extra refinement models that complicate scaling data, we propose
a novel architecture, Mogo (Motion Only Generate Once), which generates
high-quality lifelike 3D human motions by training a single transformer model.
Mogo consists of only two main components: 1) RVQ-VAE, a hierarchical residual
vector quantization variational autoencoder, which discretizes continuous
motion sequences with high precision; 2) Hierarchical Causal Transformer,
responsible for generating the base motion sequences in an autoregressive
manner while simultaneously inferring residuals across different layers.
Experimental results demonstrate that Mogo can generate continuous and cyclic
motion sequences up to 260 frames (13 seconds), surpassing the 196 frames (10
seconds) length limitation of existing datasets like HumanML3D. On the
HumanML3D test set, Mogo achieves a FID score of 0.079, outperforming both the
GPT-type model T2M-GPT (FID = 0.116), AttT2M (FID = 0.112) and the BERT-type
model MMM (FID = 0.080). Furthermore, our model achieves the best quantitative
performance in out-of-distribution generation.Summary
AI-Generated Summary