Composition fluide de mouvements humains avec encodages positionnels mélangés
Seamless Human Motion Composition with Blended Positional Encodings
February 23, 2024
Auteurs: German Barquero, Sergio Escalera, Cristina Palmero
cs.AI
Résumé
La génération conditionnelle de mouvements humains est un sujet important avec de nombreuses applications dans la réalité virtuelle, les jeux vidéo et la robotique. Alors que les travaux antérieurs se sont concentrés sur la génération de mouvements guidés par du texte, de la musique ou des scènes, ceux-ci aboutissent généralement à des mouvements isolés limités à de courtes durées. Nous abordons plutôt la génération de séquences longues et continues guidées par une série de descriptions textuelles variées. Dans ce contexte, nous présentons FlowMDM, le premier modèle basé sur la diffusion qui génère des compositions de mouvements humains (HMC) fluides sans aucune étape de post-traitement ou de débruitege redondante. Pour cela, nous introduisons les Blended Positional Encodings, une technique qui exploite à la fois les encodages positionnels absolus et relatifs dans la chaîne de débruitege. Plus précisément, la cohérence globale du mouvement est rétablie à l'étape absolue, tandis que des transitions fluides et réalistes sont construites à l'étape relative. En conséquence, nous obtenons des résultats de pointe en termes de précision, de réalisme et de fluidité sur les ensembles de données Babel et HumanML3D. FlowMDM excelle lorsqu'il est entraîné avec une seule description par séquence de mouvement grâce à son Pose-Centric Cross-ATtention, qui le rend robuste face à des descriptions textuelles variées au moment de l'inférence. Enfin, pour pallier les limites des métriques HMC existantes, nous proposons deux nouvelles métriques : le Peak Jerk et l'Area Under the Jerk, pour détecter les transitions abruptes.
English
Conditional human motion generation is an important topic with many
applications in virtual reality, gaming, and robotics. While prior works have
focused on generating motion guided by text, music, or scenes, these typically
result in isolated motions confined to short durations. Instead, we address the
generation of long, continuous sequences guided by a series of varying textual
descriptions. In this context, we introduce FlowMDM, the first diffusion-based
model that generates seamless Human Motion Compositions (HMC) without any
postprocessing or redundant denoising steps. For this, we introduce the Blended
Positional Encodings, a technique that leverages both absolute and relative
positional encodings in the denoising chain. More specifically, global motion
coherence is recovered at the absolute stage, whereas smooth and realistic
transitions are built at the relative stage. As a result, we achieve
state-of-the-art results in terms of accuracy, realism, and smoothness on the
Babel and HumanML3D datasets. FlowMDM excels when trained with only a single
description per motion sequence thanks to its Pose-Centric Cross-ATtention,
which makes it robust against varying text descriptions at inference time.
Finally, to address the limitations of existing HMC metrics, we propose two new
metrics: the Peak Jerk and the Area Under the Jerk, to detect abrupt
transitions.