MixerMDM: Leerbare compositie van menselijke bewegingsdiffusiemodellen

Samenvatting

Het genereren van menselijke bewegingen geleid door voorwaarden zoals tekstuele beschrijvingen is uitdagend vanwege de behoefte aan datasets met paren van hoogwaardige bewegingen en hun bijbehorende voorwaarden. De moeilijkheid neemt toe wanneer men streeft naar fijnere controle in de generatie. Daartoe hebben eerdere werken voorgesteld om verschillende bewegingsdiffusiemodellen te combineren die vooraf zijn getraind op datasets met verschillende soorten voorwaarden, waardoor controle met meerdere voorwaarden mogelijk wordt. De voorgestelde samenvoegingsstrategieën houden echter geen rekening met het feit dat de optimale manier om de generatieprocessen te combineren afhankelijk kan zijn van de specifieke kenmerken van elk vooraf getraind generatief model en ook van de specifieke tekstuele beschrijvingen. In deze context introduceren we MixerMDM, de eerste leerbare modelcompositietechniek voor het combineren van vooraf getrainde tekstgeconditioneerde menselijke bewegingsdiffusiemodellen. In tegenstelling tot eerdere benaderingen biedt MixerMDM een dynamische mengstrategie die op een adversariële manier wordt getraind om te leren het denoisingsproces van elk model te combineren afhankelijk van de set voorwaarden die de generatie sturen. Door MixerMDM te gebruiken om enkelvoudige en meervoudige bewegingsdiffusiemodellen te combineren, bereiken we fijnmazige controle over de dynamiek van elke persoon afzonderlijk, en ook over de algehele interactie. Bovendien stellen we een nieuwe evaluatietechniek voor die, voor het eerst in deze taak, de interactie en individuele kwaliteit meet door de afstemming tussen de gemengde gegenereerde bewegingen en hun voorwaarden te berekenen, evenals de mogelijkheden van MixerMDM om het mengen aan te passen gedurende het denoisingsproces afhankelijk van de te mengen bewegingen.

English

Generating human motion guided by conditions such as textual descriptions is challenging due to the need for datasets with pairs of high-quality motion and their corresponding conditions. The difficulty increases when aiming for finer control in the generation. To that end, prior works have proposed to combine several motion diffusion models pre-trained on datasets with different types of conditions, thus allowing control with multiple conditions. However, the proposed merging strategies overlook that the optimal way to combine the generation processes might depend on the particularities of each pre-trained generative model and also the specific textual descriptions. In this context, we introduce MixerMDM, the first learnable model composition technique for combining pre-trained text-conditioned human motion diffusion models. Unlike previous approaches, MixerMDM provides a dynamic mixing strategy that is trained in an adversarial fashion to learn to combine the denoising process of each model depending on the set of conditions driving the generation. By using MixerMDM to combine single- and multi-person motion diffusion models, we achieve fine-grained control on the dynamics of every person individually, and also on the overall interaction. Furthermore, we propose a new evaluation technique that, for the first time in this task, measures the interaction and individual quality by computing the alignment between the mixed generated motions and their conditions as well as the capabilities of MixerMDM to adapt the mixing throughout the denoising process depending on the motions to mix.

MixerMDM: Leerbare compositie van menselijke bewegingsdiffusiemodellen

MixerMDM: Learnable Composition of Human Motion Diffusion Models

Samenvatting

Support