Naadloze Menselijke Bewegingscompositie met Gemengde Positionele Coderingen
Seamless Human Motion Composition with Blended Positional Encodings
February 23, 2024
Auteurs: German Barquero, Sergio Escalera, Cristina Palmero
cs.AI
Samenvatting
Conditionele menselijke bewegingsgeneratie is een belangrijk onderwerp met veel toepassingen in virtual reality, gaming en robotica. Hoewel eerdere werken zich hebben gericht op het genereren van bewegingen geleid door tekst, muziek of scènes, resulteren deze meestal in geïsoleerde bewegingen die beperkt zijn tot korte duur. In plaats daarvan richten wij ons op het genereren van lange, continue sequenties geleid door een reeks variërende tekstuele beschrijvingen. In deze context introduceren wij FlowMDM, het eerste op diffusie gebaseerde model dat naadloze Human Motion Compositions (HMC) genereert zonder enige nabewerking of overbodige denoisingsstappen. Hiervoor introduceren wij de Blended Positional Encodings, een techniek die zowel absolute als relatieve positionele coderingen benut in de denoisingketen. Meer specifiek wordt globale beweging coherentie hersteld in de absolute fase, terwijl vloeiende en realistische overgangen worden opgebouwd in de relatieve fase. Als resultaat behalen wij state-of-the-art resultaten op het gebied van nauwkeurigheid, realisme en vloeiendheid op de Babel- en HumanML3D-datasets. FlowMDM blinkt uit wanneer het wordt getraind met slechts één beschrijving per bewegingssequentie, dankzij zijn Pose-Centric Cross-ATtention, wat het robuust maakt tegen variërende tekstbeschrijvingen tijdens de inferentie. Tot slot, om de beperkingen van bestaande HMC-metrics aan te pakken, stellen wij twee nieuwe metrics voor: de Peak Jerk en de Area Under the Jerk, om abrupte overgangen te detecteren.
English
Conditional human motion generation is an important topic with many
applications in virtual reality, gaming, and robotics. While prior works have
focused on generating motion guided by text, music, or scenes, these typically
result in isolated motions confined to short durations. Instead, we address the
generation of long, continuous sequences guided by a series of varying textual
descriptions. In this context, we introduce FlowMDM, the first diffusion-based
model that generates seamless Human Motion Compositions (HMC) without any
postprocessing or redundant denoising steps. For this, we introduce the Blended
Positional Encodings, a technique that leverages both absolute and relative
positional encodings in the denoising chain. More specifically, global motion
coherence is recovered at the absolute stage, whereas smooth and realistic
transitions are built at the relative stage. As a result, we achieve
state-of-the-art results in terms of accuracy, realism, and smoothness on the
Babel and HumanML3D datasets. FlowMDM excels when trained with only a single
description per motion sequence thanks to its Pose-Centric Cross-ATtention,
which makes it robust against varying text descriptions at inference time.
Finally, to address the limitations of existing HMC metrics, we propose two new
metrics: the Peak Jerk and the Area Under the Jerk, to detect abrupt
transitions.