ChatPaper.aiChatPaper

MixerMDM: Erlernbare Komposition von Diffusionsmodellen für menschliche Bewegungen

MixerMDM: Learnable Composition of Human Motion Diffusion Models

April 1, 2025
Autoren: Pablo Ruiz-Ponce, German Barquero, Cristina Palmero, Sergio Escalera, José García-Rodríguez
cs.AI

Zusammenfassung

Die Erzeugung menschlicher Bewegungen, die durch Bedingungen wie Textbeschreibungen gesteuert werden, ist aufgrund des Bedarfs an Datensätzen mit Paaren von hochwertigen Bewegungen und ihren entsprechenden Bedingungen eine Herausforderung. Die Schwierigkeit erhöht sich, wenn eine feinere Kontrolle bei der Generierung angestrebt wird. Zu diesem Zweck haben frühere Arbeiten vorgeschlagen, mehrere Bewegungsdiffusionsmodelle, die auf Datensätzen mit unterschiedlichen Arten von Bedingungen vortrainiert wurden, zu kombinieren, wodurch eine Steuerung mit mehreren Bedingungen ermöglicht wird. Die vorgeschlagenen Zusammenführungsstrategien übersehen jedoch, dass die optimale Art und Weise, die Generierungsprozesse zu kombinieren, von den Besonderheiten jedes vortrainierten generativen Modells und auch von den spezifischen Textbeschreibungen abhängen könnte. In diesem Kontext stellen wir MixerMDM vor, die erste lernbare Modellkompositionstechnik zur Kombination vortrainierter textgesteuerter menschlicher Bewegungsdiffusionsmodelle. Im Gegensatz zu früheren Ansätzen bietet MixerMDM eine dynamische Mischstrategie, die in einem adversarischen Verfahren trainiert wird, um zu lernen, den Entrauschungsprozess jedes Modells abhängig von den Bedingungen, die die Generierung steuern, zu kombinieren. Durch die Verwendung von MixerMDM zur Kombination von Einzel- und Mehrpersonen-Bewegungsdiffusionsmodellen erreichen wir eine fein abgestimmte Kontrolle über die Dynamik jeder einzelnen Person sowie über die Gesamtinteraktion. Darüber hinaus schlagen wir eine neue Bewertungstechnik vor, die erstmals bei dieser Aufgabe die Interaktion und individuelle Qualität misst, indem sie die Ausrichtung zwischen den gemischten generierten Bewegungen und ihren Bedingungen sowie die Fähigkeiten von MixerMDM zur Anpassung der Mischung während des Entrauschungsprozesses in Abhängigkeit von den zu mischenden Bewegungen berechnet.
English
Generating human motion guided by conditions such as textual descriptions is challenging due to the need for datasets with pairs of high-quality motion and their corresponding conditions. The difficulty increases when aiming for finer control in the generation. To that end, prior works have proposed to combine several motion diffusion models pre-trained on datasets with different types of conditions, thus allowing control with multiple conditions. However, the proposed merging strategies overlook that the optimal way to combine the generation processes might depend on the particularities of each pre-trained generative model and also the specific textual descriptions. In this context, we introduce MixerMDM, the first learnable model composition technique for combining pre-trained text-conditioned human motion diffusion models. Unlike previous approaches, MixerMDM provides a dynamic mixing strategy that is trained in an adversarial fashion to learn to combine the denoising process of each model depending on the set of conditions driving the generation. By using MixerMDM to combine single- and multi-person motion diffusion models, we achieve fine-grained control on the dynamics of every person individually, and also on the overall interaction. Furthermore, we propose a new evaluation technique that, for the first time in this task, measures the interaction and individual quality by computing the alignment between the mixed generated motions and their conditions as well as the capabilities of MixerMDM to adapt the mixing throughout the denoising process depending on the motions to mix.

Summary

AI-Generated Summary

PDF192April 2, 2025