MixerMDM: Leerbare compositie van menselijke bewegingsdiffusiemodellen
MixerMDM: Learnable Composition of Human Motion Diffusion Models
April 1, 2025
Auteurs: Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez
cs.AI
Samenvatting
Het genereren van menselijke bewegingen geleid door voorwaarden zoals tekstuele beschrijvingen is uitdagend vanwege de behoefte aan datasets met paren van hoogwaardige bewegingen en hun bijbehorende voorwaarden. De moeilijkheid neemt toe wanneer men streeft naar fijnere controle in de generatie. Daartoe hebben eerdere werken voorgesteld om verschillende bewegingsdiffusiemodellen te combineren die vooraf zijn getraind op datasets met verschillende soorten voorwaarden, waardoor controle met meerdere voorwaarden mogelijk wordt. De voorgestelde samenvoegingsstrategieën houden echter geen rekening met het feit dat de optimale manier om de generatieprocessen te combineren afhankelijk kan zijn van de specifieke kenmerken van elk vooraf getraind generatief model en ook van de specifieke tekstuele beschrijvingen. In deze context introduceren we MixerMDM, de eerste leerbare modelcompositietechniek voor het combineren van vooraf getrainde tekstgeconditioneerde menselijke bewegingsdiffusiemodellen. In tegenstelling tot eerdere benaderingen biedt MixerMDM een dynamische mengstrategie die op een adversariële manier wordt getraind om te leren het denoisingsproces van elk model te combineren afhankelijk van de set voorwaarden die de generatie sturen. Door MixerMDM te gebruiken om enkelvoudige en meervoudige bewegingsdiffusiemodellen te combineren, bereiken we fijnmazige controle over de dynamiek van elke persoon afzonderlijk, en ook over de algehele interactie. Bovendien stellen we een nieuwe evaluatietechniek voor die, voor het eerst in deze taak, de interactie en individuele kwaliteit meet door de afstemming tussen de gemengde gegenereerde bewegingen en hun voorwaarden te berekenen, evenals de mogelijkheden van MixerMDM om het mengen aan te passen gedurende het denoisingsproces afhankelijk van de te mengen bewegingen.
English
Generating human motion guided by conditions such as textual descriptions is
challenging due to the need for datasets with pairs of high-quality motion and
their corresponding conditions. The difficulty increases when aiming for finer
control in the generation. To that end, prior works have proposed to combine
several motion diffusion models pre-trained on datasets with different types of
conditions, thus allowing control with multiple conditions. However, the
proposed merging strategies overlook that the optimal way to combine the
generation processes might depend on the particularities of each pre-trained
generative model and also the specific textual descriptions. In this context,
we introduce MixerMDM, the first learnable model composition technique for
combining pre-trained text-conditioned human motion diffusion models. Unlike
previous approaches, MixerMDM provides a dynamic mixing strategy that is
trained in an adversarial fashion to learn to combine the denoising process of
each model depending on the set of conditions driving the generation. By using
MixerMDM to combine single- and multi-person motion diffusion models, we
achieve fine-grained control on the dynamics of every person individually, and
also on the overall interaction. Furthermore, we propose a new evaluation
technique that, for the first time in this task, measures the interaction and
individual quality by computing the alignment between the mixed generated
motions and their conditions as well as the capabilities of MixerMDM to adapt
the mixing throughout the denoising process depending on the motions to mix.Summary
AI-Generated Summary