DisCoRD: Tokens Discretos para Movimento Contínuo via Fluxo Retificado Decodificação
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding
November 29, 2024
Autores: Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu
cs.AI
Resumo
O movimento humano, inerentemente contínuo e dinâmico, apresenta desafios significativos para modelos generativos. Apesar de sua predominância, métodos de quantização discreta, como VQ-VAEs, sofrem de limitações inerentes, incluindo expressividade restrita e artefatos de ruído por quadro. Abordagens contínuas, embora produzam movimentos mais suaves e naturais, frequentemente falham devido à complexidade dimensional elevada e dados de treinamento limitados. Para resolver essa "discordância" entre representações discretas e contínuas, introduzimos DisCoRD: Tokens Discretos para Movimento Contínuo via Decodificação de Fluxo Retificado, um método inovador que decodifica tokens de movimento discretos em movimento contínuo através de fluxo retificado. Ao empregar um processo de refinamento iterativo no espaço contínuo, DisCoRD captura dinâmicas detalhadas e garante movimentos mais suaves e naturais. Compatível com qualquer estrutura baseada em discretização, nosso método aprimora a naturalidade sem comprometer a fidelidade aos sinais de condicionamento. Avaliações extensas demonstram que DisCoRD alcança desempenho de ponta, com FID de 0.032 no HumanML3D e 0.169 no KIT-ML. Esses resultados solidificam DisCoRD como uma solução robusta para superar a divisão entre eficiência discreta e realismo contínuo. Nossa página do projeto está disponível em: https://whwjdqls.github.io/discord.github.io/.
English
Human motion, inherently continuous and dynamic, presents significant
challenges for generative models. Despite their dominance, discrete
quantization methods, such as VQ-VAEs, suffer from inherent limitations,
including restricted expressiveness and frame-wise noise artifacts. Continuous
approaches, while producing smoother and more natural motions, often falter due
to high-dimensional complexity and limited training data. To resolve this
"discord" between discrete and continuous representations, we introduce
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, a
novel method that decodes discrete motion tokens into continuous motion through
rectified flow. By employing an iterative refinement process in the continuous
space, DisCoRD captures fine-grained dynamics and ensures smoother and more
natural motions. Compatible with any discrete-based framework, our method
enhances naturalness without compromising faithfulness to the conditioning
signals. Extensive evaluations demonstrate that DisCoRD achieves
state-of-the-art performance, with FID of 0.032 on HumanML3D and 0.169 on
KIT-ML. These results solidify DisCoRD as a robust solution for bridging the
divide between discrete efficiency and continuous realism. Our project page is
available at: https://whwjdqls.github.io/discord.github.io/.