Absolute Koordinaten erleichtern die Bewegungsgenerierung.
Absolute Coordinates Make Motion Generation Easy
May 26, 2025
Autoren: Zichong Meng, Zeyu Han, Xiaogang Peng, Yiming Xie, Huaizu Jiang
cs.AI
Zusammenfassung
State-of-the-Art-Modelle zur Text-zu-Bewegung-Generierung basieren auf der kinematikbewussten, lokal-relativen Bewegungsdarstellung, die durch HumanML3D populär gemacht wurde. Diese kodiert Bewegung relativ zum Becken und zum vorherigen Frame mit eingebauter Redundanz. Während dieses Design das Training für frühere Generierungsmodelle vereinfacht, führt es kritische Einschränkungen für Diffusionsmodelle ein und behindert die Anwendbarkeit auf nachgelagerte Aufgaben. In dieser Arbeit überdenken wir die Bewegungsdarstellung und schlagen eine radikal vereinfachte und lange vernachlässigte Alternative für die Text-zu-Bewegung-Generierung vor: absolute Gelenkkoordinaten im globalen Raum. Durch systematische Analyse der Designentscheidungen zeigen wir, dass diese Formulierung eine signifikant höhere Bewegungsqualität, verbesserte Textausrichtung und starke Skalierbarkeit erreicht, selbst mit einem einfachen Transformer-Backbone und ohne zusätzliche kinematikbewusste Verlustfunktionen. Darüber hinaus unterstützt unsere Formulierung natürlicherweise nachgelagerte Aufgaben wie textgesteuerte Bewegungssteuerung und zeitliche/räumliche Bearbeitung, ohne zusätzliche aufgabenspezifische Neuentwicklung und kostspielige Klassifikator-gesteuerte Generierung aus Steuersignalen. Schließlich demonstrieren wir eine vielversprechende Generalisierungsfähigkeit, um direkt SMPL-H-Mesh-Vertices in Bewegung aus Text zu generieren, und legen damit eine solide Grundlage für zukünftige Forschung und bewegungsbezogene Anwendungen.
English
State-of-the-art text-to-motion generation models rely on the
kinematic-aware, local-relative motion representation popularized by HumanML3D,
which encodes motion relative to the pelvis and to the previous frame with
built-in redundancy. While this design simplifies training for earlier
generation models, it introduces critical limitations for diffusion models and
hinders applicability to downstream tasks. In this work, we revisit the motion
representation and propose a radically simplified and long-abandoned
alternative for text-to-motion generation: absolute joint coordinates in global
space. Through systematic analysis of design choices, we show that this
formulation achieves significantly higher motion fidelity, improved text
alignment, and strong scalability, even with a simple Transformer backbone and
no auxiliary kinematic-aware losses. Moreover, our formulation naturally
supports downstream tasks such as text-driven motion control and
temporal/spatial editing without additional task-specific reengineering and
costly classifier guidance generation from control signals. Finally, we
demonstrate promising generalization to directly generate SMPL-H mesh vertices
in motion from text, laying a strong foundation for future research and
motion-related applications.Summary
AI-Generated Summary