GeoMotionGPT: Geometrie-uitgelijnd Bewegingsbegrip met Grote Taalmodellen
GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models
January 12, 2026
Auteurs: Zhankai Ye, Bofan Li, Yukai Jin, Shuoqiu Li, Wei Wang, Yanfu Zhang, Shangqian Gao, Xin Liu
cs.AI
Samenvatting
Discrete bewegingstokenisatie heeft recentelijk Large Language Models (LLM's) in staat gesteld om als veelzijdige ruggengraat te dienen voor bewegingbegrip en beweging-taalredenering. Bestaande pijplijnen ontkoppelen echter typisch bewegingkwantisatie van semantische embedding-aanleren, en verbinden deze uitsluitend via token-ID's. Deze aanpak slaagt er niet in om de intrinsieke geometrie van de bewegingruimte effectief uit te lijnen met de embeddingruimte, waardoor het vermogen van de LLM voor genuanceerde bewegingredenering wordt belemmerd. Wij stellen dat uitlijning het meest effectief is wanneer beide modaliteiten een verenigde geometrische basis delen. Daarom presenteren wij, in plaats van de LLM te forceren om de complexe geometrie tussen bewegingstokens vanaf nul te reconstrueren, een nieuw framework dat expliciet orthogonaliteit afdwingt op zowel de bewegingcodeboek als de LLM-embeddingruimte, zodat hun relationele structuren elkaar van nature weerspiegelen. Specifiek gebruiken wij een decoder-only kwantisator met Gumbel-Softmax voor differentieerbare training en gebalanceerd codeboekgebruik. Om de modaliteiten te overbruggen, gebruiken wij een sparse projectie die bewegingcodes afbeeldt naar de LLM-embeddingruimte terwijl orthogonaliteit behouden blijft. Ten slotte handhaaft een tweefasen orthonormale regularisatieschema zachte restricties tijdens tokenisatortraining en LLM-finetuning om geometrische uitlijning te behouden zonder semantische adaptatie te belemmeren. Uitgebreide experimenten op HumanML3D tonen aan dat ons framework een prestatieverbetering van 20% bereikt ten opzichte van huidige state-of-the-art methoden, wat valideert dat een verenigde geometrische basis de LLM effectief in staat stelt voor genuanceerde bewegingredenering.
English
Discrete motion tokenization has recently enabled Large Language Models (LLMs) to serve as versatile backbones for motion understanding and motion-language reasoning. However, existing pipelines typically decouple motion quantization from semantic embedding learning, linking them solely via token IDs. This approach fails to effectively align the intrinsic geometry of the motion space with the embedding space, thereby hindering the LLM's capacity for nuanced motion reasoning. We argue that alignment is most effective when both modalities share a unified geometric basis. Therefore, instead of forcing the LLM to reconstruct the complex geometry among motion tokens from scratch, we present a novel framework that explicitly enforces orthogonality on both the motion codebook and the LLM embedding space, ensuring that their relational structures naturally mirror each other. Specifically, we employ a decoder-only quantizer with Gumbel-Softmax for differentiable training and balanced codebook usage. To bridge the modalities, we use a sparse projection that maps motion codes into the LLM embedding space while preserving orthogonality. Finally, a two-stage orthonormal regularization schedule enforces soft constraints during tokenizer training and LLM fine-tuning to maintain geometric alignment without hindering semantic adaptation. Extensive experiments on HumanML3D demonstrate that our framework achieves a 20% performance improvement over current state-of-the-art methods, validating that a unified geometric basis effectively empowers the LLM for nuanced motion reasoning.