Composizione fluida del movimento umano con codifiche posizionali miste
Seamless Human Motion Composition with Blended Positional Encodings
February 23, 2024
Autori: German Barquero, Sergio Escalera, Cristina Palmero
cs.AI
Abstract
La generazione condizionata del movimento umano è un argomento importante con molte applicazioni nella realtà virtuale, nei giochi e nella robotica. Mentre i lavori precedenti si sono concentrati sulla generazione di movimenti guidati da testo, musica o scene, questi tipicamente producono movimenti isolati confinati a brevi durate. Noi, invece, affrontiamo la generazione di sequenze lunghe e continue guidate da una serie di descrizioni testuali variabili. In questo contesto, introduciamo FlowMDM, il primo modello basato su diffusione che genera Composizioni di Movimento Umano (HMC) senza alcuna post-elaborazione o passaggi ridondanti di rimozione del rumore. Per questo, introduciamo le Blended Positional Encodings, una tecnica che sfrutta sia le codifiche posizionali assolute che quelle relative nella catena di rimozione del rumore. Più specificamente, la coerenza globale del movimento viene recuperata nella fase assoluta, mentre transizioni fluide e realistiche vengono costruite nella fase relativa. Di conseguenza, otteniamo risultati all'avanguardia in termini di accuratezza, realismo e fluidità sui dataset Babel e HumanML3D. FlowMDM eccelle quando viene addestrato con una sola descrizione per sequenza di movimento grazie al suo Pose-Centric Cross-ATtention, che lo rende robusto contro descrizioni testuali variabili al momento dell'inferenza. Infine, per affrontare i limiti delle metriche HMC esistenti, proponiamo due nuove metriche: il Picco di Scatto (Peak Jerk) e l'Area Sotto lo Scatto (Area Under the Jerk), per rilevare transizioni brusche.
English
Conditional human motion generation is an important topic with many
applications in virtual reality, gaming, and robotics. While prior works have
focused on generating motion guided by text, music, or scenes, these typically
result in isolated motions confined to short durations. Instead, we address the
generation of long, continuous sequences guided by a series of varying textual
descriptions. In this context, we introduce FlowMDM, the first diffusion-based
model that generates seamless Human Motion Compositions (HMC) without any
postprocessing or redundant denoising steps. For this, we introduce the Blended
Positional Encodings, a technique that leverages both absolute and relative
positional encodings in the denoising chain. More specifically, global motion
coherence is recovered at the absolute stage, whereas smooth and realistic
transitions are built at the relative stage. As a result, we achieve
state-of-the-art results in terms of accuracy, realism, and smoothness on the
Babel and HumanML3D datasets. FlowMDM excels when trained with only a single
description per motion sequence thanks to its Pose-Centric Cross-ATtention,
which makes it robust against varying text descriptions at inference time.
Finally, to address the limitations of existing HMC metrics, we propose two new
metrics: the Peak Jerk and the Area Under the Jerk, to detect abrupt
transitions.