Le coordinate assolute rendono semplice la generazione del movimento
Absolute Coordinates Make Motion Generation Easy
May 26, 2025
Autori: Zichong Meng, Zeyu Han, Xiaogang Peng, Yiming Xie, Huaizu Jiang
cs.AI
Abstract
I modelli all'avanguardia per la generazione di movimento da testo si basano sulla rappresentazione cinematica locale-relativa del movimento, resa popolare da HumanML3D, che codifica il movimento rispetto al bacino e al fotogramma precedente con una ridondanza integrata. Sebbene questo design semplifichi l'addestramento per i modelli di generazione precedenti, introduce limitazioni critiche per i modelli di diffusione e ostacola l'applicabilità ai task downstream. In questo lavoro, rivisitiamo la rappresentazione del movimento e proponiamo un'alternativa radicalmente semplificata e a lungo abbandonata per la generazione di movimento da testo: le coordinate assolute delle articolazioni nello spazio globale. Attraverso un'analisi sistematica delle scelte progettuali, dimostriamo che questa formulazione raggiunge una fedeltà del movimento significativamente superiore, un migliore allineamento al testo e una forte scalabilità, anche con un semplice backbone Transformer e senza perdite ausiliarie cinematica-consapevoli. Inoltre, la nostra formulazione supporta naturalmente task downstream come il controllo del movimento guidato da testo e l'editing temporale/spaziale senza ulteriori riprogettazioni specifiche per il task e la generazione costosa di guida classificatore dai segnali di controllo. Infine, dimostriamo una promettente generalizzazione per generare direttamente i vertici della mesh SMPL-H in movimento da testo, gettando una solida base per la ricerca futura e le applicazioni legate al movimento.
English
State-of-the-art text-to-motion generation models rely on the
kinematic-aware, local-relative motion representation popularized by HumanML3D,
which encodes motion relative to the pelvis and to the previous frame with
built-in redundancy. While this design simplifies training for earlier
generation models, it introduces critical limitations for diffusion models and
hinders applicability to downstream tasks. In this work, we revisit the motion
representation and propose a radically simplified and long-abandoned
alternative for text-to-motion generation: absolute joint coordinates in global
space. Through systematic analysis of design choices, we show that this
formulation achieves significantly higher motion fidelity, improved text
alignment, and strong scalability, even with a simple Transformer backbone and
no auxiliary kinematic-aware losses. Moreover, our formulation naturally
supports downstream tasks such as text-driven motion control and
temporal/spatial editing without additional task-specific reengineering and
costly classifier guidance generation from control signals. Finally, we
demonstrate promising generalization to directly generate SMPL-H mesh vertices
in motion from text, laying a strong foundation for future research and
motion-related applications.