ChatPaper.aiChatPaper

DisCoRD: Tokens Discretos para Movimento Contínuo via Fluxo Retificado Decodificação

DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

November 29, 2024
Autores: Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu
cs.AI

Resumo

O movimento humano, inerentemente contínuo e dinâmico, apresenta desafios significativos para modelos generativos. Apesar de sua predominância, métodos de quantização discreta, como VQ-VAEs, sofrem de limitações inerentes, incluindo expressividade restrita e artefatos de ruído por quadro. Abordagens contínuas, embora produzam movimentos mais suaves e naturais, frequentemente falham devido à complexidade dimensional elevada e dados de treinamento limitados. Para resolver essa "discordância" entre representações discretas e contínuas, introduzimos DisCoRD: Tokens Discretos para Movimento Contínuo via Decodificação de Fluxo Retificado, um método inovador que decodifica tokens de movimento discretos em movimento contínuo através de fluxo retificado. Ao empregar um processo de refinamento iterativo no espaço contínuo, DisCoRD captura dinâmicas detalhadas e garante movimentos mais suaves e naturais. Compatível com qualquer estrutura baseada em discretização, nosso método aprimora a naturalidade sem comprometer a fidelidade aos sinais de condicionamento. Avaliações extensas demonstram que DisCoRD alcança desempenho de ponta, com FID de 0.032 no HumanML3D e 0.169 no KIT-ML. Esses resultados solidificam DisCoRD como uma solução robusta para superar a divisão entre eficiência discreta e realismo contínuo. Nossa página do projeto está disponível em: https://whwjdqls.github.io/discord.github.io/.
English
Human motion, inherently continuous and dynamic, presents significant challenges for generative models. Despite their dominance, discrete quantization methods, such as VQ-VAEs, suffer from inherent limitations, including restricted expressiveness and frame-wise noise artifacts. Continuous approaches, while producing smoother and more natural motions, often falter due to high-dimensional complexity and limited training data. To resolve this "discord" between discrete and continuous representations, we introduce DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, a novel method that decodes discrete motion tokens into continuous motion through rectified flow. By employing an iterative refinement process in the continuous space, DisCoRD captures fine-grained dynamics and ensures smoother and more natural motions. Compatible with any discrete-based framework, our method enhances naturalness without compromising faithfulness to the conditioning signals. Extensive evaluations demonstrate that DisCoRD achieves state-of-the-art performance, with FID of 0.032 on HumanML3D and 0.169 on KIT-ML. These results solidify DisCoRD as a robust solution for bridging the divide between discrete efficiency and continuous realism. Our project page is available at: https://whwjdqls.github.io/discord.github.io/.
PDF102December 2, 2024