MixerMDM: Обучаемая композиция моделей диффузии человеческих движений
MixerMDM: Learnable Composition of Human Motion Diffusion Models
April 1, 2025
Авторы: Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez
cs.AI
Аннотация
Генерация движений человека, управляемая условиями, такими как текстовые описания, представляет собой сложную задачу из-за необходимости в наборах данных, содержащих пары высококачественных движений и соответствующих им условий. Сложность возрастает при стремлении к более точному контролю в процессе генерации. Для решения этой проблемы в предыдущих работах предлагалось комбинировать несколько моделей диффузии движений, предварительно обученных на наборах данных с различными типами условий, что позволяет осуществлять управление с использованием множества условий. Однако предложенные стратегии объединения упускают из виду, что оптимальный способ комбинирования процессов генерации может зависеть от особенностей каждой предварительно обученной генеративной модели, а также от конкретных текстовых описаний. В этом контексте мы представляем MixerMDM — первую обучаемую технику композиции моделей для объединения предварительно обученных моделей диффузии движений человека, управляемых текстовыми условиями. В отличие от предыдущих подходов, MixerMDM предлагает динамическую стратегию смешивания, которая обучается в состязательной манере, чтобы научиться комбинировать процесс удаления шума каждой модели в зависимости от набора условий, управляющих генерацией. Используя MixerMDM для объединения моделей диффузии движений для одного и нескольких человек, мы достигаем детального контроля над динамикой каждого человека в отдельности, а также над общим взаимодействием. Кроме того, мы предлагаем новый метод оценки, который впервые в этой задаче измеряет качество взаимодействия и индивидуальных движений, вычисляя соответствие между смешанными сгенерированными движениями и их условиями, а также способности MixerMDM адаптировать процесс смешивания на протяжении всего процесса удаления шума в зависимости от движений, которые необходимо смешать.
English
Generating human motion guided by conditions such as textual descriptions is
challenging due to the need for datasets with pairs of high-quality motion and
their corresponding conditions. The difficulty increases when aiming for finer
control in the generation. To that end, prior works have proposed to combine
several motion diffusion models pre-trained on datasets with different types of
conditions, thus allowing control with multiple conditions. However, the
proposed merging strategies overlook that the optimal way to combine the
generation processes might depend on the particularities of each pre-trained
generative model and also the specific textual descriptions. In this context,
we introduce MixerMDM, the first learnable model composition technique for
combining pre-trained text-conditioned human motion diffusion models. Unlike
previous approaches, MixerMDM provides a dynamic mixing strategy that is
trained in an adversarial fashion to learn to combine the denoising process of
each model depending on the set of conditions driving the generation. By using
MixerMDM to combine single- and multi-person motion diffusion models, we
achieve fine-grained control on the dynamics of every person individually, and
also on the overall interaction. Furthermore, we propose a new evaluation
technique that, for the first time in this task, measures the interaction and
individual quality by computing the alignment between the mixed generated
motions and their conditions as well as the capabilities of MixerMDM to adapt
the mixing throughout the denoising process depending on the motions to mix.Summary
AI-Generated Summary