ChatPaper.aiChatPaper

Absolute Koordinaten erleichtern die Bewegungsgenerierung.

Absolute Coordinates Make Motion Generation Easy

May 26, 2025
Autoren: Zichong Meng, Zeyu Han, Xiaogang Peng, Yiming Xie, Huaizu Jiang
cs.AI

Zusammenfassung

State-of-the-Art-Modelle zur Text-zu-Bewegung-Generierung basieren auf der kinematikbewussten, lokal-relativen Bewegungsdarstellung, die durch HumanML3D populär gemacht wurde. Diese kodiert Bewegung relativ zum Becken und zum vorherigen Frame mit eingebauter Redundanz. Während dieses Design das Training für frühere Generierungsmodelle vereinfacht, führt es kritische Einschränkungen für Diffusionsmodelle ein und behindert die Anwendbarkeit auf nachgelagerte Aufgaben. In dieser Arbeit überdenken wir die Bewegungsdarstellung und schlagen eine radikal vereinfachte und lange vernachlässigte Alternative für die Text-zu-Bewegung-Generierung vor: absolute Gelenkkoordinaten im globalen Raum. Durch systematische Analyse der Designentscheidungen zeigen wir, dass diese Formulierung eine signifikant höhere Bewegungsqualität, verbesserte Textausrichtung und starke Skalierbarkeit erreicht, selbst mit einem einfachen Transformer-Backbone und ohne zusätzliche kinematikbewusste Verlustfunktionen. Darüber hinaus unterstützt unsere Formulierung natürlicherweise nachgelagerte Aufgaben wie textgesteuerte Bewegungssteuerung und zeitliche/räumliche Bearbeitung, ohne zusätzliche aufgabenspezifische Neuentwicklung und kostspielige Klassifikator-gesteuerte Generierung aus Steuersignalen. Schließlich demonstrieren wir eine vielversprechende Generalisierungsfähigkeit, um direkt SMPL-H-Mesh-Vertices in Bewegung aus Text zu generieren, und legen damit eine solide Grundlage für zukünftige Forschung und bewegungsbezogene Anwendungen.
English
State-of-the-art text-to-motion generation models rely on the kinematic-aware, local-relative motion representation popularized by HumanML3D, which encodes motion relative to the pelvis and to the previous frame with built-in redundancy. While this design simplifies training for earlier generation models, it introduces critical limitations for diffusion models and hinders applicability to downstream tasks. In this work, we revisit the motion representation and propose a radically simplified and long-abandoned alternative for text-to-motion generation: absolute joint coordinates in global space. Through systematic analysis of design choices, we show that this formulation achieves significantly higher motion fidelity, improved text alignment, and strong scalability, even with a simple Transformer backbone and no auxiliary kinematic-aware losses. Moreover, our formulation naturally supports downstream tasks such as text-driven motion control and temporal/spatial editing without additional task-specific reengineering and costly classifier guidance generation from control signals. Finally, we demonstrate promising generalization to directly generate SMPL-H mesh vertices in motion from text, laying a strong foundation for future research and motion-related applications.

Summary

AI-Generated Summary

PDF12May 28, 2025