Las Coordenadas Absolutas Facilitan la Generación de Movimiento

Resumen

Los modelos de última generación para la generación de texto a movimiento se basan en la representación cinemática local-relativa popularizada por HumanML3D, que codifica el movimiento relativo a la pelvis y al fotograma anterior con redundancia incorporada. Si bien este diseño simplifica el entrenamiento para modelos de generación anteriores, introduce limitaciones críticas para los modelos de difusión y dificulta su aplicabilidad en tareas posteriores. En este trabajo, revisitamos la representación del movimiento y proponemos una alternativa radicalmente simplificada y largamente abandonada para la generación de texto a movimiento: coordenadas absolutas de las articulaciones en el espacio global. A través de un análisis sistemático de las decisiones de diseño, demostramos que esta formulación logra una fidelidad de movimiento significativamente mayor, una mejor alineación con el texto y una fuerte escalabilidad, incluso con una arquitectura Transformer simple y sin pérdidas auxiliares conscientes de la cinemática. Además, nuestra formulación admite naturalmente tareas posteriores, como el control de movimiento impulsado por texto y la edición temporal/espacial, sin necesidad de reingeniería específica para cada tarea ni de una costosa generación de guía clasificadora a partir de señales de control. Finalmente, demostramos una generalización prometedora al generar directamente vértices de malla SMPL-H en movimiento a partir de texto, sentando una base sólida para futuras investigaciones y aplicaciones relacionadas con el movimiento.

English

State-of-the-art text-to-motion generation models rely on the kinematic-aware, local-relative motion representation popularized by HumanML3D, which encodes motion relative to the pelvis and to the previous frame with built-in redundancy. While this design simplifies training for earlier generation models, it introduces critical limitations for diffusion models and hinders applicability to downstream tasks. In this work, we revisit the motion representation and propose a radically simplified and long-abandoned alternative for text-to-motion generation: absolute joint coordinates in global space. Through systematic analysis of design choices, we show that this formulation achieves significantly higher motion fidelity, improved text alignment, and strong scalability, even with a simple Transformer backbone and no auxiliary kinematic-aware losses. Moreover, our formulation naturally supports downstream tasks such as text-driven motion control and temporal/spatial editing without additional task-specific reengineering and costly classifier guidance generation from control signals. Finally, we demonstrate promising generalization to directly generate SMPL-H mesh vertices in motion from text, laying a strong foundation for future research and motion-related applications.

Las Coordenadas Absolutas Facilitan la Generación de Movimiento

Absolute Coordinates Make Motion Generation Easy

Resumen

Support