ChatPaper.aiChatPaper

GeoMotionGPT : Compréhension du Mouvement Aligné sur la Géométrie avec les Grands Modèles de Langage

GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models

January 12, 2026
papers.authors: Zhankai Ye, Bofan Li, Yukai Jin, Shuoqiu Li, Wei Wang, Yanfu Zhang, Shangqian Gao, Xin Liu
cs.AI

papers.abstract

La discrétisation du mouvement (motion tokenization) a récemment permis aux grands modèles de langage (LLM) de servir d'architectures polyvalentes pour la compréhension du mouvement et le raisonnement liant mouvement et langage. Cependant, les pipelines existants dissocient généralement l'étape de quantification du mouvement de l'apprentissage des plongements sémantiques, ne les reliant que par des identifiants de tokens. Cette approche ne parvient pas à aligner efficacement la géométrie intrinsèque de l'espace des mouvements avec l'espace des plongements, entravant ainsi la capacité du LLM à effectuer un raisonnement nuancé sur le mouvement. Nous soutenons que l'alignement est le plus efficace lorsque les deux modalités partagent une base géométrique unifiée. Par conséquent, au lieu de forcer le LLM à reconstruire de zéro la géométrie complexe entre les tokens de mouvement, nous présentons un nouveau cadre qui impose explicitement l'orthogonalité à la fois au codebook de mouvement et à l'espace de plongement du LLM, garantissant que leurs structures relationnelles se reflètent naturellement. Plus précisément, nous utilisons un quantifieur à décodeur seul avec Gumbel-Softmax pour un apprentissage différentiable et une utilisation équilibrée du codebook. Pour faire le lien entre les modalités, nous utilisons une projection parcimonieuse qui mappe les codes de mouvement dans l'espace de plongement du LLM tout en préservant l'orthogonalité. Enfin, un plan de régularisation orthonormale en deux étapes impose des contraintes souples pendant l'entraînement du tokenizer et le fine-tuning du LLM pour maintenir l'alignement géométrique sans entraver l'adaptation sémantique. Des expériences approfondies sur HumanML3D démontrent que notre cadre atteint une amélioration des performances de 20 % par rapport aux méthodes état de l'art actuelles, validant qu'une base géométrique unifiée renforce efficacement la capacité du LLM pour un raisonnement nuancé sur le mouvement.
English
Discrete motion tokenization has recently enabled Large Language Models (LLMs) to serve as versatile backbones for motion understanding and motion-language reasoning. However, existing pipelines typically decouple motion quantization from semantic embedding learning, linking them solely via token IDs. This approach fails to effectively align the intrinsic geometry of the motion space with the embedding space, thereby hindering the LLM's capacity for nuanced motion reasoning. We argue that alignment is most effective when both modalities share a unified geometric basis. Therefore, instead of forcing the LLM to reconstruct the complex geometry among motion tokens from scratch, we present a novel framework that explicitly enforces orthogonality on both the motion codebook and the LLM embedding space, ensuring that their relational structures naturally mirror each other. Specifically, we employ a decoder-only quantizer with Gumbel-Softmax for differentiable training and balanced codebook usage. To bridge the modalities, we use a sparse projection that maps motion codes into the LLM embedding space while preserving orthogonality. Finally, a two-stage orthonormal regularization schedule enforces soft constraints during tokenizer training and LLM fine-tuning to maintain geometric alignment without hindering semantic adaptation. Extensive experiments on HumanML3D demonstrate that our framework achieves a 20% performance improvement over current state-of-the-art methods, validating that a unified geometric basis effectively empowers the LLM for nuanced motion reasoning.
PDF11January 15, 2026