ChatPaper.aiChatPaper

MixerMDM: Composição Aprendível de Modelos de Difusão de Movimento Humano

MixerMDM: Learnable Composition of Human Motion Diffusion Models

April 1, 2025
Autores: Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez
cs.AI

Resumo

Gerar movimentos humanos guiados por condições como descrições textuais é desafiador devido à necessidade de conjuntos de dados com pares de movimentos de alta qualidade e suas condições correspondentes. A dificuldade aumenta ao buscar um controle mais refinado na geração. Para isso, trabalhos anteriores propuseram combinar vários modelos de difusão de movimento pré-treinados em conjuntos de dados com diferentes tipos de condições, permitindo assim o controle com múltiplas condições. No entanto, as estratégias de fusão propostas ignoram que a maneira ideal de combinar os processos de geração pode depender das particularidades de cada modelo generativo pré-treinado e também das descrições textuais específicas. Nesse contexto, apresentamos o MixerMDM, a primeira técnica de composição de modelos aprendível para combinar modelos de difusão de movimento humano pré-treinados condicionados por texto. Diferente das abordagens anteriores, o MixerMDM fornece uma estratégia de mistura dinâmica que é treinada de forma adversarial para aprender a combinar o processo de remoção de ruído de cada modelo dependendo do conjunto de condições que orientam a geração. Ao usar o MixerMDM para combinar modelos de difusão de movimento para uma e várias pessoas, alcançamos um controle refinado sobre a dinâmica de cada indivíduo separadamente, e também sobre a interação geral. Além disso, propomos uma nova técnica de avaliação que, pela primeira vez nesta tarefa, mede a interação e a qualidade individual ao calcular o alinhamento entre os movimentos gerados misturados e suas condições, bem como as capacidades do MixerMDM de adaptar a mistura ao longo do processo de remoção de ruído dependendo dos movimentos a serem misturados.
English
Generating human motion guided by conditions such as textual descriptions is challenging due to the need for datasets with pairs of high-quality motion and their corresponding conditions. The difficulty increases when aiming for finer control in the generation. To that end, prior works have proposed to combine several motion diffusion models pre-trained on datasets with different types of conditions, thus allowing control with multiple conditions. However, the proposed merging strategies overlook that the optimal way to combine the generation processes might depend on the particularities of each pre-trained generative model and also the specific textual descriptions. In this context, we introduce MixerMDM, the first learnable model composition technique for combining pre-trained text-conditioned human motion diffusion models. Unlike previous approaches, MixerMDM provides a dynamic mixing strategy that is trained in an adversarial fashion to learn to combine the denoising process of each model depending on the set of conditions driving the generation. By using MixerMDM to combine single- and multi-person motion diffusion models, we achieve fine-grained control on the dynamics of every person individually, and also on the overall interaction. Furthermore, we propose a new evaluation technique that, for the first time in this task, measures the interaction and individual quality by computing the alignment between the mixed generated motions and their conditions as well as the capabilities of MixerMDM to adapt the mixing throughout the denoising process depending on the motions to mix.

Summary

AI-Generated Summary

PDF192April 2, 2025