Mogo: RQ Hiërarchische Causale Transformer voor het genereren van hoogwaardige 3D-menselijke bewegingen
Mogo: RQ Hierarchical Causal Transformer for High-Quality 3D Human Motion Generation
December 5, 2024
Auteurs: Dongjie Fu
cs.AI
Samenvatting
In het veld van tekst-naar-bewegingsgeneratie produceren Bert-type Masked Modellen (MoMask, MMM) momenteel kwalitatief betere resultaten vergeleken met GPT-type autoregressieve modellen (T2M-GPT). Echter, deze Bert-type modellen missen vaak de mogelijkheid tot continue output die vereist is voor toepassingen in videogames en multimediatoepassingen, een eigenschap die inherent is aan GPT-type modellen. Daarnaast vertonen ze zwakkere prestaties bij het genereren van out-of-distribution data. Om de kwaliteit van BERT-type modellen te overtreffen en tegelijkertijd gebruik te maken van een GPT-type structuur, zonder extra verfijningsmodellen toe te voegen die het schalen van data compliceren, stellen we een nieuw architectuur voor, Mogo (Motion Only Generate Once), die hoogwaardige realistische 3D-menselijke bewegingen genereert door middel van training van een enkel transformer model. Mogo bestaat slechts uit twee hoofdcomponenten: 1) RVQ-VAE, een hiërarchische residuale vectorquantizatie variational autoencoder, die continue bewegingsreeksen discretiseert met hoge precisie; 2) Hiërarchische Causale Transformer, verantwoordelijk voor het genereren van de basale bewegingsreeksen op een autoregressieve manier terwijl tegelijkertijd residuen worden afgeleid over verschillende lagen. Experimentele resultaten tonen aan dat Mogo continue en cyclische bewegingsreeksen kan genereren tot 260 frames (13 seconden), wat de 196 frames (10 seconden) lengtebeperking van bestaande datasets zoals HumanML3D overtreft. Op de HumanML3D testset behaalt Mogo een FID-score van 0.079, wat beter is dan zowel het GPT-type model T2M-GPT (FID = 0.116), AttT2M (FID = 0.112) en het BERT-type model MMM (FID = 0.080). Bovendien behaalt ons model de beste kwantitatieve prestatie bij out-of-distribution generatie.
English
In the field of text-to-motion generation, Bert-type Masked Models (MoMask,
MMM) currently produce higher-quality outputs compared to GPT-type
autoregressive models (T2M-GPT). However, these Bert-type models often lack the
streaming output capability required for applications in video game and
multimedia environments, a feature inherent to GPT-type models. Additionally,
they demonstrate weaker performance in out-of-distribution generation. To
surpass the quality of BERT-type models while leveraging a GPT-type structure,
without adding extra refinement models that complicate scaling data, we propose
a novel architecture, Mogo (Motion Only Generate Once), which generates
high-quality lifelike 3D human motions by training a single transformer model.
Mogo consists of only two main components: 1) RVQ-VAE, a hierarchical residual
vector quantization variational autoencoder, which discretizes continuous
motion sequences with high precision; 2) Hierarchical Causal Transformer,
responsible for generating the base motion sequences in an autoregressive
manner while simultaneously inferring residuals across different layers.
Experimental results demonstrate that Mogo can generate continuous and cyclic
motion sequences up to 260 frames (13 seconds), surpassing the 196 frames (10
seconds) length limitation of existing datasets like HumanML3D. On the
HumanML3D test set, Mogo achieves a FID score of 0.079, outperforming both the
GPT-type model T2M-GPT (FID = 0.116), AttT2M (FID = 0.112) and the BERT-type
model MMM (FID = 0.080). Furthermore, our model achieves the best quantitative
performance in out-of-distribution generation.