ChatPaper.aiChatPaper

Les coordonnées absolues simplifient la génération de mouvements.

Absolute Coordinates Make Motion Generation Easy

May 26, 2025
Auteurs: Zichong Meng, Zeyu Han, Xiaogang Peng, Yiming Xie, Huaizu Jiang
cs.AI

Résumé

Les modèles de pointe en génération de texte-à-mouvement s'appuient sur la représentation cinématique locale relative popularisée par HumanML3D, qui encode le mouvement par rapport au bassin et à la frame précédente avec une redondance intégrée. Bien que cette conception simplifie l'entraînement pour les premiers modèles de génération, elle introduit des limitations critiques pour les modèles de diffusion et entrave leur applicabilité aux tâches en aval. Dans ce travail, nous revisitons la représentation du mouvement et proposons une alternative radicalement simplifiée et longtemps abandonnée pour la génération de texte-à-mouvement : les coordonnées absolues des articulations dans l'espace global. À travers une analyse systématique des choix de conception, nous montrons que cette formulation atteint une fidélité de mouvement significativement plus élevée, une meilleure alignement avec le texte et une forte scalabilité, même avec une simple architecture Transformer et sans pertes cinématiques auxiliaires. De plus, notre formulation supporte naturellement les tâches en aval telles que le contrôle de mouvement piloté par texte et l'édition temporelle/spatiale sans réingénierie spécifique à la tâche et sans génération coûteuse de guidage par classifieur à partir de signaux de contrôle. Enfin, nous démontrons une généralisation prometteuse pour générer directement les vertices du maillage SMPL-H en mouvement à partir du texte, posant ainsi une base solide pour les recherches futures et les applications liées au mouvement.
English
State-of-the-art text-to-motion generation models rely on the kinematic-aware, local-relative motion representation popularized by HumanML3D, which encodes motion relative to the pelvis and to the previous frame with built-in redundancy. While this design simplifies training for earlier generation models, it introduces critical limitations for diffusion models and hinders applicability to downstream tasks. In this work, we revisit the motion representation and propose a radically simplified and long-abandoned alternative for text-to-motion generation: absolute joint coordinates in global space. Through systematic analysis of design choices, we show that this formulation achieves significantly higher motion fidelity, improved text alignment, and strong scalability, even with a simple Transformer backbone and no auxiliary kinematic-aware losses. Moreover, our formulation naturally supports downstream tasks such as text-driven motion control and temporal/spatial editing without additional task-specific reengineering and costly classifier guidance generation from control signals. Finally, we demonstrate promising generalization to directly generate SMPL-H mesh vertices in motion from text, laying a strong foundation for future research and motion-related applications.

Summary

AI-Generated Summary

PDF12May 28, 2025