Mogo: Иерархический причинный трансформер RQ для генерации качественного трехмерного движения человека.
Mogo: RQ Hierarchical Causal Transformer for High-Quality 3D Human Motion Generation
December 5, 2024
Авторы: Dongjie Fu
cs.AI
Аннотация
В области генерации текста в движение модели типа Bert с маскировкой (MoMask, MMM) в настоящее время производят более качественные результаты по сравнению с авторегрессионными моделями типа GPT (T2M-GPT). Однако эти модели типа Bert часто лишены возможности потокового вывода, необходимой для приложений в видеоиграх и мультимедийных средах, функции, присущей моделям типа GPT. Кроме того, они демонстрируют более слабую производительность в генерации вне распределения. Для превзойти качество моделей типа BERT, используя структуру типа GPT, без добавления дополнительных моделей улучшения, усложняющих масштабирование данных, мы предлагаем новую архитектуру, Mogo (Motion Only Generate Once), которая генерирует высококачественные реалистичные трехмерные движения человека путем обучения единственной модели трансформера. Mogo состоит только из двух основных компонентов: 1) RVQ-VAE, иерархический вариационный автокодировщик с остаточным векторным квантованием, который дискретизирует непрерывные последовательности движения с высокой точностью; 2) Иерархический причинный трансформер, ответственный за генерацию базовых последовательностей движения авторегрессионным образом, одновременно выводя остатки на разных уровнях. Экспериментальные результаты показывают, что Mogo может генерировать непрерывные и циклические последовательности движения до 260 кадров (13 секунд), превосходя ограничение длины в 196 кадров (10 секунд) существующих наборов данных, таких как HumanML3D. На тестовом наборе данных HumanML3D Mogo достигает значения FID в 0.079, превосходя как модель типа GPT T2M-GPT (FID = 0.116), AttT2M (FID = 0.112), так и модель типа BERT MMM (FID = 0.080). Более того, наша модель достигает лучшей количественной производительности в генерации вне распределения.
English
In the field of text-to-motion generation, Bert-type Masked Models (MoMask,
MMM) currently produce higher-quality outputs compared to GPT-type
autoregressive models (T2M-GPT). However, these Bert-type models often lack the
streaming output capability required for applications in video game and
multimedia environments, a feature inherent to GPT-type models. Additionally,
they demonstrate weaker performance in out-of-distribution generation. To
surpass the quality of BERT-type models while leveraging a GPT-type structure,
without adding extra refinement models that complicate scaling data, we propose
a novel architecture, Mogo (Motion Only Generate Once), which generates
high-quality lifelike 3D human motions by training a single transformer model.
Mogo consists of only two main components: 1) RVQ-VAE, a hierarchical residual
vector quantization variational autoencoder, which discretizes continuous
motion sequences with high precision; 2) Hierarchical Causal Transformer,
responsible for generating the base motion sequences in an autoregressive
manner while simultaneously inferring residuals across different layers.
Experimental results demonstrate that Mogo can generate continuous and cyclic
motion sequences up to 260 frames (13 seconds), surpassing the 196 frames (10
seconds) length limitation of existing datasets like HumanML3D. On the
HumanML3D test set, Mogo achieves a FID score of 0.079, outperforming both the
GPT-type model T2M-GPT (FID = 0.116), AttT2M (FID = 0.112) and the BERT-type
model MMM (FID = 0.080). Furthermore, our model achieves the best quantitative
performance in out-of-distribution generation.Summary
AI-Generated Summary