ChatPaper.aiChatPaper

DisCoRD: 離散トークンから連続運動へのリクティファイドフローによるデコーディング

DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

November 29, 2024
著者: Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu
cs.AI

要旨

人間の動きは、本質的に連続的かつ動的であり、生成モデルにとって重要な課題を提供しています。その支配的な存在である離散量子化手法(例:VQ-VAEs)は、制約された表現力やフレームごとのノイズアーティファクトなどの固有の制限に苦しんでいます。一方、より滑らかで自然な動きを生み出す連続的なアプローチは、高次元の複雑さや限られたトレーニングデータのためにしばしば失敗します。離散的な表現と連続的な表現の「不一致」を解消するために、私たちはDisCoRD(Discrete Tokens to Continuous Motion via Rectified Flow Decoding)を導入します。この新しい手法は、離散的な動きトークンを連続的な動きに変換するために、修正フローを介してデコードします。連続空間での反復的な洗練プロセスを採用することで、DisCoRDは微細なダイナミクスを捉え、より滑らかで自然な動きを確保します。任意の離散ベースのフレームワークと互換性があり、当社の手法は、条件付け信号への忠実性を損なうことなく自然さを向上させます。包括的な評価により、DisCoRDがHumanML3Dで0.032、KIT-MLで0.169のFIDを達成し、最先端のパフォーマンスを実現していることが示されました。これらの結果は、DisCoRDが離散的な効率性と連続的なリアリズムとの間の溝を埋めるための堅牢な解決策であることを確認しています。当社のプロジェクトページは次でご覧いただけます:https://whwjdqls.github.io/discord.github.io/。
English
Human motion, inherently continuous and dynamic, presents significant challenges for generative models. Despite their dominance, discrete quantization methods, such as VQ-VAEs, suffer from inherent limitations, including restricted expressiveness and frame-wise noise artifacts. Continuous approaches, while producing smoother and more natural motions, often falter due to high-dimensional complexity and limited training data. To resolve this "discord" between discrete and continuous representations, we introduce DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding, a novel method that decodes discrete motion tokens into continuous motion through rectified flow. By employing an iterative refinement process in the continuous space, DisCoRD captures fine-grained dynamics and ensures smoother and more natural motions. Compatible with any discrete-based framework, our method enhances naturalness without compromising faithfulness to the conditioning signals. Extensive evaluations demonstrate that DisCoRD achieves state-of-the-art performance, with FID of 0.032 on HumanML3D and 0.169 on KIT-ML. These results solidify DisCoRD as a robust solution for bridging the divide between discrete efficiency and continuous realism. Our project page is available at: https://whwjdqls.github.io/discord.github.io/.

Summary

AI-Generated Summary

PDF102December 2, 2024