ChatPaper.aiChatPaper

MixerMDM: 学習可能な人間のモーションディフュージョンモデルの構成

MixerMDM: Learnable Composition of Human Motion Diffusion Models

April 1, 2025
著者: Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez
cs.AI

要旨

テキスト記述などの条件に基づいて人間の動きを生成することは、高品質な動きとそれに対応する条件のペアを含むデータセットが必要であるため、困難な課題です。より細かい制御を目指す場合、その難易度はさらに増します。これに対処するため、これまでの研究では、異なる種類の条件を持つデータセットで事前学習された複数のモーションディフュージョンモデルを組み合わせることで、複数の条件による制御を可能にする手法が提案されてきました。しかし、これらの提案された統合戦略は、生成プロセスを組み合わせる最適な方法が、各事前学習済み生成モデルの特性や特定のテキスト記述に依存する可能性を見落としていました。この文脈において、我々はMixerMDMを紹介します。これは、事前学習済みのテキスト条件付き人間モーションディフュージョンモデルを組み合わせるための初めての学習可能なモデル合成技術です。従来のアプローチとは異なり、MixerMDMは、生成を駆動する条件のセットに応じて各モデルのノイズ除去プロセスを組み合わせる方法を敵対的学習によって動的に学習する戦略を提供します。MixerMDMを使用して単一人物および複数人物のモーションディフュージョンモデルを組み合わせることで、各人物の動きを個別に、また全体の相互作用を細かく制御することが可能になります。さらに、このタスクにおいて初めて、混合された生成モーションとその条件との整合性を計算し、MixerMDMがノイズ除去プロセス全体を通じて混合を適応させる能力を測定する新しい評価手法を提案します。
English
Generating human motion guided by conditions such as textual descriptions is challenging due to the need for datasets with pairs of high-quality motion and their corresponding conditions. The difficulty increases when aiming for finer control in the generation. To that end, prior works have proposed to combine several motion diffusion models pre-trained on datasets with different types of conditions, thus allowing control with multiple conditions. However, the proposed merging strategies overlook that the optimal way to combine the generation processes might depend on the particularities of each pre-trained generative model and also the specific textual descriptions. In this context, we introduce MixerMDM, the first learnable model composition technique for combining pre-trained text-conditioned human motion diffusion models. Unlike previous approaches, MixerMDM provides a dynamic mixing strategy that is trained in an adversarial fashion to learn to combine the denoising process of each model depending on the set of conditions driving the generation. By using MixerMDM to combine single- and multi-person motion diffusion models, we achieve fine-grained control on the dynamics of every person individually, and also on the overall interaction. Furthermore, we propose a new evaluation technique that, for the first time in this task, measures the interaction and individual quality by computing the alignment between the mixed generated motions and their conditions as well as the capabilities of MixerMDM to adapt the mixing throughout the denoising process depending on the motions to mix.

Summary

AI-Generated Summary

PDF192April 2, 2025