ChatPaper.aiChatPaper

DisCoRD: Discrete Tokens naar Continue Beweging via Gelijkgerichte Stroom Decoderen

DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

November 29, 2024
Auteurs: Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu
cs.AI

Samenvatting

Menselijke beweging, inherent continu en dynamisch, vormt aanzienlijke uitdagingen voor generatieve modellen. Ondanks hun dominantie ondervinden discrete kwantisatiemethoden, zoals VQ-VAE's, inherente beperkingen, waaronder beperkte expressiviteit en ruisartefacten per frame. Continue benaderingen, hoewel ze soepelere en natuurlijkere bewegingen produceren, struikelen vaak door de hoge dimensionale complexiteit en beperkte trainingsgegevens. Om deze "discordantie" tussen discrete en continue representaties op te lossen, introduceren we DisCoRD: Discrete Tokens naar Continue Beweging via Gelijkgerichte Stroomdecodering, een nieuw methode die discrete bewegingstokens decodeert naar continue beweging via gerectificeerde stroom. Door een iteratief verfijningsproces in de continue ruimte toe te passen, legt DisCoRD fijnkorrelige dynamiek vast en zorgt voor soepelere en natuurlijkere bewegingen. Compatibel met elk op discretie gebaseerd raamwerk, verbetert onze methode de natuurlijkheid zonder afbreuk te doen aan de trouw aan de conditioneringssignalen. Uitgebreide evaluaties tonen aan dat DisCoRD state-of-the-art prestaties behaalt, met een FID van 0.032 op HumanML3D en 0.169 op KIT-ML. Deze resultaten bevestigen DisCoRD als een robuuste oplossing voor het overbruggen van de kloof tussen discrete efficiëntie en continue realisme. Onze projectpagina is beschikbaar op: https://whwjdqls.github.io/discord.github.io/.
English
Human motion, inherently continuous and dynamic, presents significant challenges for generative models. Despite their dominance, discrete quantization methods, such as VQ-VAEs, suffer from inherent limitations, including restricted expressiveness and frame-wise noise artifacts. Continuous approaches, while producing smoother and more natural motions, often falter due to high-dimensional complexity and limited training data. To resolve this "discord" between discrete and continuous representations, we introduce DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, a novel method that decodes discrete motion tokens into continuous motion through rectified flow. By employing an iterative refinement process in the continuous space, DisCoRD captures fine-grained dynamics and ensures smoother and more natural motions. Compatible with any discrete-based framework, our method enhances naturalness without compromising faithfulness to the conditioning signals. Extensive evaluations demonstrate that DisCoRD achieves state-of-the-art performance, with FID of 0.032 on HumanML3D and 0.169 on KIT-ML. These results solidify DisCoRD as a robust solution for bridging the divide between discrete efficiency and continuous realism. Our project page is available at: https://whwjdqls.github.io/discord.github.io/.
PDF102December 2, 2024