DisCoRD : De jetons discrets à mouvement continu via un flux rectifié Décodage
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding
November 29, 2024
Auteurs: Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu
cs.AI
Résumé
Le mouvement humain, intrinsèquement continu et dynamique, présente des défis significatifs pour les modèles génératifs. Malgré leur domination, les méthodes de quantification discrète, telles que les VQ-VAEs, souffrent de limitations inhérentes, notamment une expressivité restreinte et des artefacts de bruit image par image. Les approches continues, bien qu'elles produisent des mouvements plus fluides et naturels, rencontrent souvent des difficultés en raison de la complexité multidimensionnelle élevée et des données d'entraînement limitées. Pour résoudre cette "discorde" entre les représentations discrètes et continues, nous introduisons DisCoRD : Tokens Discrets vers Mouvement Continu via un Décodage de Flux Rectifié, une méthode novatrice qui décode des tokens de mouvement discrets en mouvement continu à travers un flux rectifié. En utilisant un processus de raffinement itératif dans l'espace continu, DisCoRD capture les dynamiques fines et garantit des mouvements plus fluides et naturels. Compatible avec tout cadre basé sur le discret, notre méthode améliore la naturalité sans compromettre la fidélité aux signaux de conditionnement. Des évaluations approfondies montrent que DisCoRD atteint des performances de pointe, avec un FID de 0,032 sur HumanML3D et 0,169 sur KIT-ML. Ces résultats consolident DisCoRD en tant que solution robuste pour combler le fossé entre l'efficacité discrète et le réalisme continu. Notre page de projet est disponible à l'adresse : https://whwjdqls.github.io/discord.github.io/.
English
Human motion, inherently continuous and dynamic, presents significant
challenges for generative models. Despite their dominance, discrete
quantization methods, such as VQ-VAEs, suffer from inherent limitations,
including restricted expressiveness and frame-wise noise artifacts. Continuous
approaches, while producing smoother and more natural motions, often falter due
to high-dimensional complexity and limited training data. To resolve this
"discord" between discrete and continuous representations, we introduce
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, a
novel method that decodes discrete motion tokens into continuous motion through
rectified flow. By employing an iterative refinement process in the continuous
space, DisCoRD captures fine-grained dynamics and ensures smoother and more
natural motions. Compatible with any discrete-based framework, our method
enhances naturalness without compromising faithfulness to the conditioning
signals. Extensive evaluations demonstrate that DisCoRD achieves
state-of-the-art performance, with FID of 0.032 on HumanML3D and 0.169 on
KIT-ML. These results solidify DisCoRD as a robust solution for bridging the
divide between discrete efficiency and continuous realism. Our project page is
available at: https://whwjdqls.github.io/discord.github.io/.Summary
AI-Generated Summary