MixerMDM : Composition apprenable de modèles de diffusion pour le mouvement humain
MixerMDM: Learnable Composition of Human Motion Diffusion Models
April 1, 2025
Auteurs: Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez
cs.AI
Résumé
La génération de mouvements humains guidés par des conditions telles que des descriptions textuelles est un défi en raison du besoin de jeux de données associant des mouvements de haute qualité à leurs conditions correspondantes. La difficulté s'accroît lorsqu'on vise un contrôle plus fin de la génération. À cette fin, des travaux antérieurs ont proposé de combiner plusieurs modèles de diffusion de mouvements pré-entraînés sur des jeux de données avec différents types de conditions, permettant ainsi un contrôle avec plusieurs conditions. Cependant, les stratégies de fusion proposées négligent le fait que la manière optimale de combiner les processus de génération pourrait dépendre des particularités de chaque modèle génératif pré-entraîné ainsi que des descriptions textuelles spécifiques. Dans ce contexte, nous introduisons MixerMDM, la première technique de composition de modèles apprenable pour combiner des modèles de diffusion de mouvements humains conditionnés par du texte et pré-entraînés. Contrairement aux approches précédentes, MixerMDM propose une stratégie de mélange dynamique qui est entraînée de manière antagoniste pour apprendre à combiner le processus de débruitage de chaque modèle en fonction de l'ensemble des conditions guidant la génération. En utilisant MixerMDM pour combiner des modèles de diffusion de mouvements individuels et multi-personnes, nous obtenons un contrôle granulaire sur la dynamique de chaque personne individuellement, ainsi que sur l'interaction globale. De plus, nous proposons une nouvelle technique d'évaluation qui, pour la première fois dans cette tâche, mesure la qualité de l'interaction et de l'individu en calculant l'alignement entre les mouvements générés mélangés et leurs conditions, ainsi que les capacités de MixerMDM à adapter le mélange tout au long du processus de débruitage en fonction des mouvements à mélanger.
English
Generating human motion guided by conditions such as textual descriptions is
challenging due to the need for datasets with pairs of high-quality motion and
their corresponding conditions. The difficulty increases when aiming for finer
control in the generation. To that end, prior works have proposed to combine
several motion diffusion models pre-trained on datasets with different types of
conditions, thus allowing control with multiple conditions. However, the
proposed merging strategies overlook that the optimal way to combine the
generation processes might depend on the particularities of each pre-trained
generative model and also the specific textual descriptions. In this context,
we introduce MixerMDM, the first learnable model composition technique for
combining pre-trained text-conditioned human motion diffusion models. Unlike
previous approaches, MixerMDM provides a dynamic mixing strategy that is
trained in an adversarial fashion to learn to combine the denoising process of
each model depending on the set of conditions driving the generation. By using
MixerMDM to combine single- and multi-person motion diffusion models, we
achieve fine-grained control on the dynamics of every person individually, and
also on the overall interaction. Furthermore, we propose a new evaluation
technique that, for the first time in this task, measures the interaction and
individual quality by computing the alignment between the mixed generated
motions and their conditions as well as the capabilities of MixerMDM to adapt
the mixing throughout the denoising process depending on the motions to mix.Summary
AI-Generated Summary