MixerMDM: Composición Aprendible de Modelos de Difusión de Movimiento Humano
MixerMDM: Learnable Composition of Human Motion Diffusion Models
April 1, 2025
Autores: Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez
cs.AI
Resumen
Generar movimiento humano guiado por condiciones como descripciones textuales es un desafío debido a la necesidad de conjuntos de datos con pares de movimiento de alta calidad y sus condiciones correspondientes. La dificultad aumenta cuando se busca un control más fino en la generación. Con este fin, trabajos previos han propuesto combinar varios modelos de difusión de movimiento preentrenados en conjuntos de datos con diferentes tipos de condiciones, permitiendo así el control con múltiples condiciones. Sin embargo, las estrategias de fusión propuestas pasan por alto que la forma óptima de combinar los procesos de generación podría depender de las particularidades de cada modelo generativo preentrenado y también de las descripciones textuales específicas. En este contexto, presentamos MixerMDM, la primera técnica de composición de modelos aprendible para combinar modelos de difusión de movimiento humano preentrenados condicionados por texto. A diferencia de enfoques anteriores, MixerMDM proporciona una estrategia de mezcla dinámica que se entrena de manera adversarial para aprender a combinar el proceso de eliminación de ruido de cada modelo dependiendo del conjunto de condiciones que guían la generación. Al utilizar MixerMDM para combinar modelos de difusión de movimiento para una y varias personas, logramos un control detallado sobre la dinámica de cada individuo y también sobre la interacción general. Además, proponemos una nueva técnica de evaluación que, por primera vez en esta tarea, mide la calidad de la interacción y la individualidad al calcular la alineación entre los movimientos generados mezclados y sus condiciones, así como la capacidad de MixerMDM para adaptar la mezcla a lo largo del proceso de eliminación de ruido dependiendo de los movimientos a combinar.
English
Generating human motion guided by conditions such as textual descriptions is
challenging due to the need for datasets with pairs of high-quality motion and
their corresponding conditions. The difficulty increases when aiming for finer
control in the generation. To that end, prior works have proposed to combine
several motion diffusion models pre-trained on datasets with different types of
conditions, thus allowing control with multiple conditions. However, the
proposed merging strategies overlook that the optimal way to combine the
generation processes might depend on the particularities of each pre-trained
generative model and also the specific textual descriptions. In this context,
we introduce MixerMDM, the first learnable model composition technique for
combining pre-trained text-conditioned human motion diffusion models. Unlike
previous approaches, MixerMDM provides a dynamic mixing strategy that is
trained in an adversarial fashion to learn to combine the denoising process of
each model depending on the set of conditions driving the generation. By using
MixerMDM to combine single- and multi-person motion diffusion models, we
achieve fine-grained control on the dynamics of every person individually, and
also on the overall interaction. Furthermore, we propose a new evaluation
technique that, for the first time in this task, measures the interaction and
individual quality by computing the alignment between the mixed generated
motions and their conditions as well as the capabilities of MixerMDM to adapt
the mixing throughout the denoising process depending on the motions to mix.Summary
AI-Generated Summary