ChatPaper.aiChatPaper

DisCoRD: Diskrete Token zu kontinuierlicher Bewegung durch rektifizierten Fluss Dekodierung

DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

November 29, 2024
Autoren: Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu
cs.AI

Zusammenfassung

Menschliche Bewegung, die von Natur aus kontinuierlich und dynamisch ist, stellt signifikante Herausforderungen für generative Modelle dar. Trotz ihrer Dominanz leiden diskrete Quantisierungsmethoden wie VQ-VAEs unter inhärenten Einschränkungen, darunter eingeschränkte Ausdruckskraft und rahmenweise Rauschartefakte. Kontinuierliche Ansätze, die zwar glattere und natürlichere Bewegungen erzeugen, scheitern oft aufgrund hoher dimensionsbezogener Komplexität und begrenzter Trainingsdaten. Um diesen "Widerspruch" zwischen diskreten und kontinuierlichen Darstellungen aufzulösen, stellen wir DisCoRD vor: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, eine neuartige Methode, die diskrete Bewegungstoken in kontinuierliche Bewegungen durch rektifizierten Fluss decodiert. Durch den Einsatz eines iterativen Verfeinerungsprozesses im kontinuierlichen Raum erfasst DisCoRD feingliedrige Dynamiken und gewährleistet glattere und natürlichere Bewegungen. Kompatibel mit jedem auf Diskreten basierenden Framework verbessert unsere Methode die Natürlichkeit, ohne die Treue zu den Konditionierungssignalen zu beeinträchtigen. Umfangreiche Bewertungen zeigen, dass DisCoRD eine Spitzenleistung erzielt, mit einem FID von 0,032 auf HumanML3D und 0,169 auf KIT-ML. Diese Ergebnisse festigen DisCoRD als robuste Lösung zur Überbrückung der Kluft zwischen diskreter Effizienz und kontinuierlichem Realismus. Unsere Projektseite ist verfügbar unter: https://whwjdqls.github.io/discord.github.io/.
English
Human motion, inherently continuous and dynamic, presents significant challenges for generative models. Despite their dominance, discrete quantization methods, such as VQ-VAEs, suffer from inherent limitations, including restricted expressiveness and frame-wise noise artifacts. Continuous approaches, while producing smoother and more natural motions, often falter due to high-dimensional complexity and limited training data. To resolve this "discord" between discrete and continuous representations, we introduce DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, a novel method that decodes discrete motion tokens into continuous motion through rectified flow. By employing an iterative refinement process in the continuous space, DisCoRD captures fine-grained dynamics and ensures smoother and more natural motions. Compatible with any discrete-based framework, our method enhances naturalness without compromising faithfulness to the conditioning signals. Extensive evaluations demonstrate that DisCoRD achieves state-of-the-art performance, with FID of 0.032 on HumanML3D and 0.169 on KIT-ML. These results solidify DisCoRD as a robust solution for bridging the divide between discrete efficiency and continuous realism. Our project page is available at: https://whwjdqls.github.io/discord.github.io/.

Summary

AI-Generated Summary

PDF102December 2, 2024