Composição Contínua de Movimento Humano com Codificações Posicionais Misturadas
Seamless Human Motion Composition with Blended Positional Encodings
February 23, 2024
Autores: German Barquero, Sergio Escalera, Cristina Palmero
cs.AI
Resumo
A geração condicional de movimento humano é um tópico importante com diversas aplicações em realidade virtual, jogos e robótica. Embora trabalhos anteriores tenham se concentrado na geração de movimentos guiados por texto, música ou cenas, esses geralmente resultam em movimentos isolados, limitados a durações curtas. Em vez disso, abordamos a geração de sequências longas e contínuas guiadas por uma série de descrições textuais variadas. Nesse contexto, introduzimos o FlowMDM, o primeiro modelo baseado em difusão que gera Composições de Movimento Humano (HMC) contínuas sem qualquer pós-processamento ou etapas redundantes de remoção de ruído. Para isso, apresentamos as Codificações Posicionais Misturadas, uma técnica que aproveita tanto as codificações posicionais absolutas quanto as relativas na cadeia de remoção de ruído. Mais especificamente, a coerência global do movimento é recuperada na etapa absoluta, enquanto transições suaves e realistas são construídas na etapa relativa. Como resultado, alcançamos resultados de ponta em termos de precisão, realismo e suavidade nos conjuntos de dados Babel e HumanML3D. O FlowMDM se destaca quando treinado com apenas uma descrição por sequência de movimento, graças ao seu Mecanismo de Atenção Cruzada Centrado na Pose, que o torna robusto contra variações nas descrições textuais durante a inferência. Por fim, para abordar as limitações das métricas existentes de HMC, propomos duas novas métricas: o Pico de Aceleração e a Área Sob a Curva de Aceleração, para detectar transições abruptas.
English
Conditional human motion generation is an important topic with many
applications in virtual reality, gaming, and robotics. While prior works have
focused on generating motion guided by text, music, or scenes, these typically
result in isolated motions confined to short durations. Instead, we address the
generation of long, continuous sequences guided by a series of varying textual
descriptions. In this context, we introduce FlowMDM, the first diffusion-based
model that generates seamless Human Motion Compositions (HMC) without any
postprocessing or redundant denoising steps. For this, we introduce the Blended
Positional Encodings, a technique that leverages both absolute and relative
positional encodings in the denoising chain. More specifically, global motion
coherence is recovered at the absolute stage, whereas smooth and realistic
transitions are built at the relative stage. As a result, we achieve
state-of-the-art results in terms of accuracy, realism, and smoothness on the
Babel and HumanML3D datasets. FlowMDM excels when trained with only a single
description per motion sequence thanks to its Pose-Centric Cross-ATtention,
which makes it robust against varying text descriptions at inference time.
Finally, to address the limitations of existing HMC metrics, we propose two new
metrics: the Peak Jerk and the Area Under the Jerk, to detect abrupt
transitions.