ChatPaper.aiChatPaper

DisCoRD: De Tokens Discretos a Movimiento Continuo a través de Flujo Rectificado Decodificación

DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

November 29, 2024
Autores: Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu
cs.AI

Resumen

El movimiento humano, inherentemente continuo y dinámico, presenta desafíos significativos para los modelos generativos. A pesar de su dominancia, los métodos de cuantización discreta, como los VQ-VAEs, sufren de limitaciones inherentes, incluyendo una expresividad restringida y artefactos de ruido por cuadro. Los enfoques continuos, aunque producen movimientos más suaves y naturales, a menudo fallan debido a la complejidad de alta dimensión y datos de entrenamiento limitados. Para resolver esta "discordia" entre representaciones discretas y continuas, presentamos DisCoRD: Tokens Discretos a Movimiento Continuo a través de Decodificación de Flujo Rectificado, un método novedoso que decodifica tokens de movimiento discretos en movimiento continuo a través de flujo rectificado. Al emplear un proceso de refinamiento iterativo en el espacio continuo, DisCoRD captura dinámicas detalladas y garantiza movimientos más suaves y naturales. Compatible con cualquier marco basado en lo discreto, nuestro método mejora la naturalidad sin comprometer la fidelidad a las señales de condicionamiento. Evaluaciones extensas demuestran que DisCoRD logra un rendimiento de vanguardia, con un FID de 0.032 en HumanML3D y 0.169 en KIT-ML. Estos resultados consolidan a DisCoRD como una solución robusta para cerrar la brecha entre la eficiencia discreta y el realismo continuo. Nuestra página del proyecto está disponible en: https://whwjdqls.github.io/discord.github.io/.
English
Human motion, inherently continuous and dynamic, presents significant challenges for generative models. Despite their dominance, discrete quantization methods, such as VQ-VAEs, suffer from inherent limitations, including restricted expressiveness and frame-wise noise artifacts. Continuous approaches, while producing smoother and more natural motions, often falter due to high-dimensional complexity and limited training data. To resolve this "discord" between discrete and continuous representations, we introduce DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, a novel method that decodes discrete motion tokens into continuous motion through rectified flow. By employing an iterative refinement process in the continuous space, DisCoRD captures fine-grained dynamics and ensures smoother and more natural motions. Compatible with any discrete-based framework, our method enhances naturalness without compromising faithfulness to the conditioning signals. Extensive evaluations demonstrate that DisCoRD achieves state-of-the-art performance, with FID of 0.032 on HumanML3D and 0.169 on KIT-ML. These results solidify DisCoRD as a robust solution for bridging the divide between discrete efficiency and continuous realism. Our project page is available at: https://whwjdqls.github.io/discord.github.io/.

Summary

AI-Generated Summary

PDF102December 2, 2024