MixerMDM: Обучаемая композиция моделей диффузии человеческих движений

Аннотация

Генерация движений человека, управляемая условиями, такими как текстовые описания, представляет собой сложную задачу из-за необходимости в наборах данных, содержащих пары высококачественных движений и соответствующих им условий. Сложность возрастает при стремлении к более точному контролю в процессе генерации. Для решения этой проблемы в предыдущих работах предлагалось комбинировать несколько моделей диффузии движений, предварительно обученных на наборах данных с различными типами условий, что позволяет осуществлять управление с использованием множества условий. Однако предложенные стратегии объединения упускают из виду, что оптимальный способ комбинирования процессов генерации может зависеть от особенностей каждой предварительно обученной генеративной модели, а также от конкретных текстовых описаний. В этом контексте мы представляем MixerMDM — первую обучаемую технику композиции моделей для объединения предварительно обученных моделей диффузии движений человека, управляемых текстовыми условиями. В отличие от предыдущих подходов, MixerMDM предлагает динамическую стратегию смешивания, которая обучается в состязательной манере, чтобы научиться комбинировать процесс удаления шума каждой модели в зависимости от набора условий, управляющих генерацией. Используя MixerMDM для объединения моделей диффузии движений для одного и нескольких человек, мы достигаем детального контроля над динамикой каждого человека в отдельности, а также над общим взаимодействием. Кроме того, мы предлагаем новый метод оценки, который впервые в этой задаче измеряет качество взаимодействия и индивидуальных движений, вычисляя соответствие между смешанными сгенерированными движениями и их условиями, а также способности MixerMDM адаптировать процесс смешивания на протяжении всего процесса удаления шума в зависимости от движений, которые необходимо смешать.

English

Generating human motion guided by conditions such as textual descriptions is challenging due to the need for datasets with pairs of high-quality motion and their corresponding conditions. The difficulty increases when aiming for finer control in the generation. To that end, prior works have proposed to combine several motion diffusion models pre-trained on datasets with different types of conditions, thus allowing control with multiple conditions. However, the proposed merging strategies overlook that the optimal way to combine the generation processes might depend on the particularities of each pre-trained generative model and also the specific textual descriptions. In this context, we introduce MixerMDM, the first learnable model composition technique for combining pre-trained text-conditioned human motion diffusion models. Unlike previous approaches, MixerMDM provides a dynamic mixing strategy that is trained in an adversarial fashion to learn to combine the denoising process of each model depending on the set of conditions driving the generation. By using MixerMDM to combine single- and multi-person motion diffusion models, we achieve fine-grained control on the dynamics of every person individually, and also on the overall interaction. Furthermore, we propose a new evaluation technique that, for the first time in this task, measures the interaction and individual quality by computing the alignment between the mixed generated motions and their conditions as well as the capabilities of MixerMDM to adapt the mixing throughout the denoising process depending on the motions to mix.

MixerMDM: Обучаемая композиция моделей диффузии человеческих движений

MixerMDM: Learnable Composition of Human Motion Diffusion Models

Аннотация

Support