Nahtlose menschliche Bewegungszusammensetzung mit gemischten Positionskodierungen
Seamless Human Motion Composition with Blended Positional Encodings
February 23, 2024
Autoren: German Barquero, Sergio Escalera, Cristina Palmero
cs.AI
Zusammenfassung
Die bedingte Erzeugung menschlicher Bewegungen ist ein wichtiges Thema mit zahlreichen Anwendungen in den Bereichen Virtual Reality, Gaming und Robotik. Während sich frühere Arbeiten auf die Erzeugung von Bewegungen konzentriert haben, die durch Text, Musik oder Szenen gesteuert werden, führen diese typischerweise zu isolierten Bewegungen, die auf kurze Zeiträume beschränkt sind. Stattdessen befassen wir uns mit der Erzeugung langer, kontinuierlicher Sequenzen, die durch eine Reihe variierender Textbeschreibungen gesteuert werden. In diesem Zusammenhang stellen wir FlowMDM vor, das erste diffusionsbasierte Modell, das nahtlose Human Motion Compositions (HMC) ohne jegliche Nachbearbeitung oder redundante Denoising-Schritte erzeugt. Hierfür führen wir die Blended Positional Encodings ein, eine Technik, die sowohl absolute als auch relative Positionskodierungen in der Denoising-Kette nutzt. Genauer gesagt wird die globale Bewegungs-Kohärenz in der absoluten Phase wiederhergestellt, während glatte und realistische Übergänge in der relativen Phase aufgebaut werden. Dadurch erzielen wir state-of-the-art Ergebnisse in Bezug auf Genauigkeit, Realismus und Glätte auf den Datensätzen Babel und HumanML3D. FlowMDM zeichnet sich besonders aus, wenn es mit nur einer einzigen Beschreibung pro Bewegungssequenz trainiert wird, dank seiner Pose-Centric Cross-ATtention, die es robust gegenüber variierenden Textbeschreibungen zur Inferenzzeit macht. Schließlich schlagen wir zur Überwindung der Grenzen bestehender HMC-Metriken zwei neue Metriken vor: den Peak Jerk und die Area Under the Jerk, um abrupte Übergänge zu erkennen.
English
Conditional human motion generation is an important topic with many
applications in virtual reality, gaming, and robotics. While prior works have
focused on generating motion guided by text, music, or scenes, these typically
result in isolated motions confined to short durations. Instead, we address the
generation of long, continuous sequences guided by a series of varying textual
descriptions. In this context, we introduce FlowMDM, the first diffusion-based
model that generates seamless Human Motion Compositions (HMC) without any
postprocessing or redundant denoising steps. For this, we introduce the Blended
Positional Encodings, a technique that leverages both absolute and relative
positional encodings in the denoising chain. More specifically, global motion
coherence is recovered at the absolute stage, whereas smooth and realistic
transitions are built at the relative stage. As a result, we achieve
state-of-the-art results in terms of accuracy, realism, and smoothness on the
Babel and HumanML3D datasets. FlowMDM excels when trained with only a single
description per motion sequence thanks to its Pose-Centric Cross-ATtention,
which makes it robust against varying text descriptions at inference time.
Finally, to address the limitations of existing HMC metrics, we propose two new
metrics: the Peak Jerk and the Area Under the Jerk, to detect abrupt
transitions.