ChatPaper.aiChatPaper

DisCoRD: Преобразование дискретных токенов в непрерывное движение с помощью исправленного потока декодирования

DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

November 29, 2024
Авторы: Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu
cs.AI

Аннотация

Движение человека, по своей природе непрерывное и динамичное, представляет существенные вызовы для генеративных моделей. Несмотря на их доминирование, дискретные методы квантования, такие как VQ-VAE, сталкиваются с врожденными ограничениями, включая ограниченную выразительность и артефакты шума на уровне кадра. Непрерывные подходы, хотя и производят более плавные и естественные движения, часто терпят неудачу из-за высокой размерности и ограниченных данных для обучения. Для разрешения этого "разногласия" между дискретными и непрерывными представлениями, мы представляем DisCoRD: Дискретные Токены в Непрерывное Движение через Декодирование с Помощью Исправленного Потока, новый метод, который декодирует дискретные токены движения в непрерывное движение через исправленный поток. Применяя итеративный процесс уточнения в непрерывном пространстве, DisCoRD захватывает мелкозернистую динамику и обеспечивает более плавные и естественные движения. Совместимый с любой дискретной основой, наш метод улучшает естественность, не жертвуя верности сигналам условий. Обширные оценки показывают, что DisCoRD достигает передовой производительности, с FID 0.032 на HumanML3D и 0.169 на KIT-ML. Эти результаты закрепляют DisCoRD как надежное решение для преодоления разрыва между дискретной эффективностью и непрерывным реализмом. Наша страница проекта доступна по ссылке: https://whwjdqls.github.io/discord.github.io/.
English
Human motion, inherently continuous and dynamic, presents significant challenges for generative models. Despite their dominance, discrete quantization methods, such as VQ-VAEs, suffer from inherent limitations, including restricted expressiveness and frame-wise noise artifacts. Continuous approaches, while producing smoother and more natural motions, often falter due to high-dimensional complexity and limited training data. To resolve this "discord" between discrete and continuous representations, we introduce DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, a novel method that decodes discrete motion tokens into continuous motion through rectified flow. By employing an iterative refinement process in the continuous space, DisCoRD captures fine-grained dynamics and ensures smoother and more natural motions. Compatible with any discrete-based framework, our method enhances naturalness without compromising faithfulness to the conditioning signals. Extensive evaluations demonstrate that DisCoRD achieves state-of-the-art performance, with FID of 0.032 on HumanML3D and 0.169 on KIT-ML. These results solidify DisCoRD as a robust solution for bridging the divide between discrete efficiency and continuous realism. Our project page is available at: https://whwjdqls.github.io/discord.github.io/.

Summary

AI-Generated Summary

PDF102December 2, 2024