ChatPaper.aiChatPaper

MixerMDM : Composition apprenable de modèles de diffusion pour le mouvement humain

MixerMDM: Learnable Composition of Human Motion Diffusion Models

April 1, 2025
Auteurs: Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez
cs.AI

Résumé

La génération de mouvements humains guidés par des conditions telles que des descriptions textuelles est un défi en raison du besoin de jeux de données associant des mouvements de haute qualité à leurs conditions correspondantes. La difficulté s'accroît lorsqu'on vise un contrôle plus fin de la génération. À cette fin, des travaux antérieurs ont proposé de combiner plusieurs modèles de diffusion de mouvements pré-entraînés sur des jeux de données avec différents types de conditions, permettant ainsi un contrôle avec plusieurs conditions. Cependant, les stratégies de fusion proposées négligent le fait que la manière optimale de combiner les processus de génération pourrait dépendre des particularités de chaque modèle génératif pré-entraîné ainsi que des descriptions textuelles spécifiques. Dans ce contexte, nous introduisons MixerMDM, la première technique de composition de modèles apprenable pour combiner des modèles de diffusion de mouvements humains conditionnés par du texte et pré-entraînés. Contrairement aux approches précédentes, MixerMDM propose une stratégie de mélange dynamique qui est entraînée de manière antagoniste pour apprendre à combiner le processus de débruitage de chaque modèle en fonction de l'ensemble des conditions guidant la génération. En utilisant MixerMDM pour combiner des modèles de diffusion de mouvements individuels et multi-personnes, nous obtenons un contrôle granulaire sur la dynamique de chaque personne individuellement, ainsi que sur l'interaction globale. De plus, nous proposons une nouvelle technique d'évaluation qui, pour la première fois dans cette tâche, mesure la qualité de l'interaction et de l'individu en calculant l'alignement entre les mouvements générés mélangés et leurs conditions, ainsi que les capacités de MixerMDM à adapter le mélange tout au long du processus de débruitage en fonction des mouvements à mélanger.
English
Generating human motion guided by conditions such as textual descriptions is challenging due to the need for datasets with pairs of high-quality motion and their corresponding conditions. The difficulty increases when aiming for finer control in the generation. To that end, prior works have proposed to combine several motion diffusion models pre-trained on datasets with different types of conditions, thus allowing control with multiple conditions. However, the proposed merging strategies overlook that the optimal way to combine the generation processes might depend on the particularities of each pre-trained generative model and also the specific textual descriptions. In this context, we introduce MixerMDM, the first learnable model composition technique for combining pre-trained text-conditioned human motion diffusion models. Unlike previous approaches, MixerMDM provides a dynamic mixing strategy that is trained in an adversarial fashion to learn to combine the denoising process of each model depending on the set of conditions driving the generation. By using MixerMDM to combine single- and multi-person motion diffusion models, we achieve fine-grained control on the dynamics of every person individually, and also on the overall interaction. Furthermore, we propose a new evaluation technique that, for the first time in this task, measures the interaction and individual quality by computing the alignment between the mixed generated motions and their conditions as well as the capabilities of MixerMDM to adapt the mixing throughout the denoising process depending on the motions to mix.

Summary

AI-Generated Summary

PDF192April 2, 2025