Las Coordenadas Absolutas Facilitan la Generación de Movimiento
Absolute Coordinates Make Motion Generation Easy
May 26, 2025
Autores: Zichong Meng, Zeyu Han, Xiaogang Peng, Yiming Xie, Huaizu Jiang
cs.AI
Resumen
Los modelos de última generación para la generación de texto a movimiento se basan en la representación cinemática local-relativa popularizada por HumanML3D, que codifica el movimiento relativo a la pelvis y al fotograma anterior con redundancia incorporada. Si bien este diseño simplifica el entrenamiento para modelos de generación anteriores, introduce limitaciones críticas para los modelos de difusión y dificulta su aplicabilidad en tareas posteriores. En este trabajo, revisitamos la representación del movimiento y proponemos una alternativa radicalmente simplificada y largamente abandonada para la generación de texto a movimiento: coordenadas absolutas de las articulaciones en el espacio global. A través de un análisis sistemático de las decisiones de diseño, demostramos que esta formulación logra una fidelidad de movimiento significativamente mayor, una mejor alineación con el texto y una fuerte escalabilidad, incluso con una arquitectura Transformer simple y sin pérdidas auxiliares conscientes de la cinemática. Además, nuestra formulación admite naturalmente tareas posteriores, como el control de movimiento impulsado por texto y la edición temporal/espacial, sin necesidad de reingeniería específica para cada tarea ni de una costosa generación de guía clasificadora a partir de señales de control. Finalmente, demostramos una generalización prometedora al generar directamente vértices de malla SMPL-H en movimiento a partir de texto, sentando una base sólida para futuras investigaciones y aplicaciones relacionadas con el movimiento.
English
State-of-the-art text-to-motion generation models rely on the
kinematic-aware, local-relative motion representation popularized by HumanML3D,
which encodes motion relative to the pelvis and to the previous frame with
built-in redundancy. While this design simplifies training for earlier
generation models, it introduces critical limitations for diffusion models and
hinders applicability to downstream tasks. In this work, we revisit the motion
representation and propose a radically simplified and long-abandoned
alternative for text-to-motion generation: absolute joint coordinates in global
space. Through systematic analysis of design choices, we show that this
formulation achieves significantly higher motion fidelity, improved text
alignment, and strong scalability, even with a simple Transformer backbone and
no auxiliary kinematic-aware losses. Moreover, our formulation naturally
supports downstream tasks such as text-driven motion control and
temporal/spatial editing without additional task-specific reengineering and
costly classifier guidance generation from control signals. Finally, we
demonstrate promising generalization to directly generate SMPL-H mesh vertices
in motion from text, laying a strong foundation for future research and
motion-related applications.Summary
AI-Generated Summary