ChatPaper.aiChatPaper

GeoMotionGPT: 大規模言語モデルによるジオメトリ整合性を考慮した動作理解

GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models

January 12, 2026
著者: Zhankai Ye, Bofan Li, Yukai Jin, Shuoqiu Li, Wei Wang, Yanfu Zhang, Shangqian Gao, Xin Liu
cs.AI

要旨

離散モーショントークン化は近年、大規模言語モデル(LLM)がモーション理解とモーション言語推論の汎用バックボーンとして機能することを可能にしてきた。しかし、既存のパイプラインでは、モーションの量子化と意味的埋め込み学習が分離されており、それらがトークンIDのみを介して結びつけられることが一般的である。この手法は、モーション空間の内在的幾何学と埋め込み空間との効果的な整合を図ることができず、結果としてLLMの細やかなモーション推論能力を妨げている。我々は、両モダリティが統一された幾何学的基盤を共有する場合に整合が最も効果的になされると主張する。そこで本論文では、LLMにモーショントークン間の複雑な幾何学を一から再構築させるのではなく、モーションコードブックとLLM埋め込み空間の両方に直交性を明示的に課し、それらの関係構造が自然に互いを反映することを保証する新たなフレームワークを提案する。具体的には、微分可能な訓練と均衡の取れたコードブック使用を実現するため、Gumbel-Softmaxを適用したデコーダのみの量子化器を採用する。モダリティ間の橋渡しには、直交性を保存しつつモーションコードをLLM埋め込み空間に写像するスパース射影を用いる。最後に、2段階の正則直交化スケジュールにより、トークナイザーの訓練時とLLMのファインチューニング時にソフト制約を課し、意味的適応を妨げることなく幾何学的整合を維持する。HumanML3Dを用いた大規模な実験により、本フレームワークが現状の最先端手法を20%上回る性能向上を達成することを実証し、統一された幾何学的基盤がLLMの細やかなモーション推論能力を効果的に強化することを検証した。
English
Discrete motion tokenization has recently enabled Large Language Models (LLMs) to serve as versatile backbones for motion understanding and motion-language reasoning. However, existing pipelines typically decouple motion quantization from semantic embedding learning, linking them solely via token IDs. This approach fails to effectively align the intrinsic geometry of the motion space with the embedding space, thereby hindering the LLM's capacity for nuanced motion reasoning. We argue that alignment is most effective when both modalities share a unified geometric basis. Therefore, instead of forcing the LLM to reconstruct the complex geometry among motion tokens from scratch, we present a novel framework that explicitly enforces orthogonality on both the motion codebook and the LLM embedding space, ensuring that their relational structures naturally mirror each other. Specifically, we employ a decoder-only quantizer with Gumbel-Softmax for differentiable training and balanced codebook usage. To bridge the modalities, we use a sparse projection that maps motion codes into the LLM embedding space while preserving orthogonality. Finally, a two-stage orthonormal regularization schedule enforces soft constraints during tokenizer training and LLM fine-tuning to maintain geometric alignment without hindering semantic adaptation. Extensive experiments on HumanML3D demonstrate that our framework achieves a 20% performance improvement over current state-of-the-art methods, validating that a unified geometric basis effectively empowers the LLM for nuanced motion reasoning.
PDF11January 15, 2026