Nahtlose menschliche Bewegungszusammensetzung mit gemischten Positionskodierungen

papers.abstract

Die bedingte Erzeugung menschlicher Bewegungen ist ein wichtiges Thema mit zahlreichen Anwendungen in den Bereichen Virtual Reality, Gaming und Robotik. Während sich frühere Arbeiten auf die Erzeugung von Bewegungen konzentriert haben, die durch Text, Musik oder Szenen gesteuert werden, führen diese typischerweise zu isolierten Bewegungen, die auf kurze Zeiträume beschränkt sind. Stattdessen befassen wir uns mit der Erzeugung langer, kontinuierlicher Sequenzen, die durch eine Reihe variierender Textbeschreibungen gesteuert werden. In diesem Zusammenhang stellen wir FlowMDM vor, das erste diffusionsbasierte Modell, das nahtlose Human Motion Compositions (HMC) ohne jegliche Nachbearbeitung oder redundante Denoising-Schritte erzeugt. Hierfür führen wir die Blended Positional Encodings ein, eine Technik, die sowohl absolute als auch relative Positionskodierungen in der Denoising-Kette nutzt. Genauer gesagt wird die globale Bewegungs-Kohärenz in der absoluten Phase wiederhergestellt, während glatte und realistische Übergänge in der relativen Phase aufgebaut werden. Dadurch erzielen wir state-of-the-art Ergebnisse in Bezug auf Genauigkeit, Realismus und Glätte auf den Datensätzen Babel und HumanML3D. FlowMDM zeichnet sich besonders aus, wenn es mit nur einer einzigen Beschreibung pro Bewegungssequenz trainiert wird, dank seiner Pose-Centric Cross-ATtention, die es robust gegenüber variierenden Textbeschreibungen zur Inferenzzeit macht. Schließlich schlagen wir zur Überwindung der Grenzen bestehender HMC-Metriken zwei neue Metriken vor: den Peak Jerk und die Area Under the Jerk, um abrupte Übergänge zu erkennen.

English

Conditional human motion generation is an important topic with many applications in virtual reality, gaming, and robotics. While prior works have focused on generating motion guided by text, music, or scenes, these typically result in isolated motions confined to short durations. Instead, we address the generation of long, continuous sequences guided by a series of varying textual descriptions. In this context, we introduce FlowMDM, the first diffusion-based model that generates seamless Human Motion Compositions (HMC) without any postprocessing or redundant denoising steps. For this, we introduce the Blended Positional Encodings, a technique that leverages both absolute and relative positional encodings in the denoising chain. More specifically, global motion coherence is recovered at the absolute stage, whereas smooth and realistic transitions are built at the relative stage. As a result, we achieve state-of-the-art results in terms of accuracy, realism, and smoothness on the Babel and HumanML3D datasets. FlowMDM excels when trained with only a single description per motion sequence thanks to its Pose-Centric Cross-ATtention, which makes it robust against varying text descriptions at inference time. Finally, to address the limitations of existing HMC metrics, we propose two new metrics: the Peak Jerk and the Area Under the Jerk, to detect abrupt transitions.

Nahtlose menschliche Bewegungszusammensetzung mit gemischten Positionskodierungen

Seamless Human Motion Composition with Blended Positional Encodings

papers.abstract

Support