Composición fluida de movimiento humano con codificaciones posicionales combinadas
Seamless Human Motion Composition with Blended Positional Encodings
February 23, 2024
Autores: German Barquero, Sergio Escalera, Cristina Palmero
cs.AI
Resumen
La generación condicional de movimiento humano es un tema importante con múltiples aplicaciones en realidad virtual, videojuegos y robótica. Si bien trabajos previos se han centrado en generar movimientos guiados por texto, música o escenas, estos suelen resultar en movimientos aislados limitados a duraciones cortas. En cambio, abordamos la generación de secuencias largas y continuas guiadas por una serie de descripciones textuales variables. En este contexto, presentamos FlowMDM, el primer modelo basado en difusión que genera Composición de Movimiento Humano (HMC, por sus siglas en inglés) sin necesidad de postprocesamiento ni pasos redundantes de eliminación de ruido. Para ello, introducimos las Codificaciones Posicionales Mezcladas, una técnica que aprovecha tanto las codificaciones posicionales absolutas como relativas en la cadena de eliminación de ruido. Más específicamente, la coherencia global del movimiento se recupera en la etapa absoluta, mientras que las transiciones suaves y realistas se construyen en la etapa relativa. Como resultado, logramos resultados de vanguardia en términos de precisión, realismo y suavidad en los conjuntos de datos Babel y HumanML3D. FlowMDM destaca cuando se entrena con una sola descripción por secuencia de movimiento gracias a su Atención Cruzada Centrada en la Postura (Pose-Centric Cross-ATtention), lo que lo hace robusto frente a descripciones textuales variables durante la inferencia. Finalmente, para abordar las limitaciones de las métricas existentes para HMC, proponemos dos nuevas métricas: el Pico de Sacudida (Peak Jerk) y el Área Bajo la Sacudida (Area Under the Jerk), para detectar transiciones abruptas.
English
Conditional human motion generation is an important topic with many
applications in virtual reality, gaming, and robotics. While prior works have
focused on generating motion guided by text, music, or scenes, these typically
result in isolated motions confined to short durations. Instead, we address the
generation of long, continuous sequences guided by a series of varying textual
descriptions. In this context, we introduce FlowMDM, the first diffusion-based
model that generates seamless Human Motion Compositions (HMC) without any
postprocessing or redundant denoising steps. For this, we introduce the Blended
Positional Encodings, a technique that leverages both absolute and relative
positional encodings in the denoising chain. More specifically, global motion
coherence is recovered at the absolute stage, whereas smooth and realistic
transitions are built at the relative stage. As a result, we achieve
state-of-the-art results in terms of accuracy, realism, and smoothness on the
Babel and HumanML3D datasets. FlowMDM excels when trained with only a single
description per motion sequence thanks to its Pose-Centric Cross-ATtention,
which makes it robust against varying text descriptions at inference time.
Finally, to address the limitations of existing HMC metrics, we propose two new
metrics: the Peak Jerk and the Area Under the Jerk, to detect abrupt
transitions.