ChatPaper.aiChatPaper

MixerMDM: 학습 가능한 인간 동작 확산 모델의 조합

MixerMDM: Learnable Composition of Human Motion Diffusion Models

April 1, 2025
저자: Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez
cs.AI

초록

텍스트 설명과 같은 조건에 따라 인간 동작을 생성하는 것은 고품질의 동작과 해당 조건의 쌍으로 이루어진 데이터셋이 필요하기 때문에 어려운 과제입니다. 더욱 세밀한 제어를 목표로 할 때 이러한 어려움은 더욱 커집니다. 이를 위해 기존 연구에서는 다양한 유형의 조건을 가진 데이터셋으로 사전 학습된 여러 동작 확산 모델을 결합하여 다중 조건으로 제어할 수 있도록 하는 방법을 제안했습니다. 그러나 제안된 병합 전략은 각 사전 학습된 생성 모델의 특성과 특정 텍스트 설명에 따라 최적의 생성 과정 결합 방식이 달라질 수 있다는 점을 간과했습니다. 이러한 맥락에서, 우리는 사전 학습된 텍스트 조건 인간 동작 확산 모델을 결합하기 위한 최초의 학습 가능한 모델 구성 기술인 MixerMDM을 소개합니다. 이전 접근 방식과 달리, MixerMDM은 생성 과정을 주도하는 조건 집합에 따라 각 모델의 잡음 제거 과정을 결합하는 방법을 적대적 방식으로 학습하는 동적 혼합 전략을 제공합니다. MixerMDM을 사용하여 단일 및 다중 인물 동작 확산 모델을 결합함으로써, 우리는 각 개인의 동작 역학과 전체 상호작용에 대한 세밀한 제어를 달성했습니다. 또한, 이 과제에서 처음으로 혼합된 생성 동작과 그 조건 간의 정렬을 계산하고, MixerMDM이 잡음 제거 과정 전반에 걸쳐 혼합할 동작에 따라 혼합 방식을 조정하는 능력을 측정하는 새로운 평가 기술을 제안합니다.
English
Generating human motion guided by conditions such as textual descriptions is challenging due to the need for datasets with pairs of high-quality motion and their corresponding conditions. The difficulty increases when aiming for finer control in the generation. To that end, prior works have proposed to combine several motion diffusion models pre-trained on datasets with different types of conditions, thus allowing control with multiple conditions. However, the proposed merging strategies overlook that the optimal way to combine the generation processes might depend on the particularities of each pre-trained generative model and also the specific textual descriptions. In this context, we introduce MixerMDM, the first learnable model composition technique for combining pre-trained text-conditioned human motion diffusion models. Unlike previous approaches, MixerMDM provides a dynamic mixing strategy that is trained in an adversarial fashion to learn to combine the denoising process of each model depending on the set of conditions driving the generation. By using MixerMDM to combine single- and multi-person motion diffusion models, we achieve fine-grained control on the dynamics of every person individually, and also on the overall interaction. Furthermore, we propose a new evaluation technique that, for the first time in this task, measures the interaction and individual quality by computing the alignment between the mixed generated motions and their conditions as well as the capabilities of MixerMDM to adapt the mixing throughout the denoising process depending on the motions to mix.

Summary

AI-Generated Summary

PDF192April 2, 2025