MixerMDM: Composição Aprendível de Modelos de Difusão de Movimento Humano
MixerMDM: Learnable Composition of Human Motion Diffusion Models
April 1, 2025
Autores: Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez
cs.AI
Resumo
Gerar movimentos humanos guiados por condições como descrições textuais é
desafiador devido à necessidade de conjuntos de dados com pares de movimentos
de alta qualidade e suas condições correspondentes. A dificuldade aumenta ao
buscar um controle mais refinado na geração. Para isso, trabalhos anteriores
propuseram combinar vários modelos de difusão de movimento pré-treinados em
conjuntos de dados com diferentes tipos de condições, permitindo assim o
controle com múltiplas condições. No entanto, as estratégias de fusão propostas
ignoram que a maneira ideal de combinar os processos de geração pode depender
das particularidades de cada modelo generativo pré-treinado e também das
descrições textuais específicas. Nesse contexto, apresentamos o MixerMDM, a
primeira técnica de composição de modelos aprendível para combinar modelos de
difusão de movimento humano pré-treinados condicionados por texto. Diferente
das abordagens anteriores, o MixerMDM fornece uma estratégia de mistura
dinâmica que é treinada de forma adversarial para aprender a combinar o
processo de remoção de ruído de cada modelo dependendo do conjunto de
condições que orientam a geração. Ao usar o MixerMDM para combinar modelos de
difusão de movimento para uma e várias pessoas, alcançamos um controle refinado
sobre a dinâmica de cada indivíduo separadamente, e também sobre a interação
geral. Além disso, propomos uma nova técnica de avaliação que, pela primeira
vez nesta tarefa, mede a interação e a qualidade individual ao calcular o
alinhamento entre os movimentos gerados misturados e suas condições, bem como
as capacidades do MixerMDM de adaptar a mistura ao longo do processo de remoção
de ruído dependendo dos movimentos a serem misturados.
English
Generating human motion guided by conditions such as textual descriptions is
challenging due to the need for datasets with pairs of high-quality motion and
their corresponding conditions. The difficulty increases when aiming for finer
control in the generation. To that end, prior works have proposed to combine
several motion diffusion models pre-trained on datasets with different types of
conditions, thus allowing control with multiple conditions. However, the
proposed merging strategies overlook that the optimal way to combine the
generation processes might depend on the particularities of each pre-trained
generative model and also the specific textual descriptions. In this context,
we introduce MixerMDM, the first learnable model composition technique for
combining pre-trained text-conditioned human motion diffusion models. Unlike
previous approaches, MixerMDM provides a dynamic mixing strategy that is
trained in an adversarial fashion to learn to combine the denoising process of
each model depending on the set of conditions driving the generation. By using
MixerMDM to combine single- and multi-person motion diffusion models, we
achieve fine-grained control on the dynamics of every person individually, and
also on the overall interaction. Furthermore, we propose a new evaluation
technique that, for the first time in this task, measures the interaction and
individual quality by computing the alignment between the mixed generated
motions and their conditions as well as the capabilities of MixerMDM to adapt
the mixing throughout the denoising process depending on the motions to mix.Summary
AI-Generated Summary