Coordenadas Absolutas Facilitam a Geração de Movimento
Absolute Coordinates Make Motion Generation Easy
May 26, 2025
Autores: Zichong Meng, Zeyu Han, Xiaogang Peng, Yiming Xie, Huaizu Jiang
cs.AI
Resumo
Os modelos state-of-the-art de geração de texto-para-movimento dependem da representação de movimento local-relativa e cinematicamente consciente popularizada pelo HumanML3D, que codifica o movimento em relação à pelve e ao quadro anterior com redundância incorporada. Embora esse design simplifique o treinamento para modelos de geração anteriores, ele introduz limitações críticas para modelos de difusão e dificulta a aplicabilidade em tarefas subsequentes. Neste trabalho, revisitamos a representação de movimento e propomos uma alternativa radicalmente simplificada e há muito abandonada para a geração de texto-para-movimento: coordenadas absolutas das articulações no espaço global. Por meio de uma análise sistemática das escolhas de design, mostramos que essa formulação alcança uma fidelidade de movimento significativamente maior, melhor alinhamento de texto e forte escalabilidade, mesmo com uma arquitetura simples de Transformer e sem perdas auxiliares cinematicamente conscientes. Além disso, nossa formulação suporta naturalmente tarefas subsequentes, como controle de movimento orientado por texto e edição temporal/espacial, sem a necessidade de reengenharia específica para a tarefa e geração custosa de orientação por classificador a partir de sinais de controle. Por fim, demonstramos uma generalização promissora ao gerar diretamente vértices de malha SMPL-H em movimento a partir de texto, estabelecendo uma base sólida para pesquisas futuras e aplicações relacionadas a movimento.
English
State-of-the-art text-to-motion generation models rely on the
kinematic-aware, local-relative motion representation popularized by HumanML3D,
which encodes motion relative to the pelvis and to the previous frame with
built-in redundancy. While this design simplifies training for earlier
generation models, it introduces critical limitations for diffusion models and
hinders applicability to downstream tasks. In this work, we revisit the motion
representation and propose a radically simplified and long-abandoned
alternative for text-to-motion generation: absolute joint coordinates in global
space. Through systematic analysis of design choices, we show that this
formulation achieves significantly higher motion fidelity, improved text
alignment, and strong scalability, even with a simple Transformer backbone and
no auxiliary kinematic-aware losses. Moreover, our formulation naturally
supports downstream tasks such as text-driven motion control and
temporal/spatial editing without additional task-specific reengineering and
costly classifier guidance generation from control signals. Finally, we
demonstrate promising generalization to directly generate SMPL-H mesh vertices
in motion from text, laying a strong foundation for future research and
motion-related applications.