GeoMotionGPT: 대규모 언어 모델 기반 기하 정렬 운동 이해
GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models
January 12, 2026
저자: Zhankai Ye, Bofan Li, Yukai Jin, Shuoqiu Li, Wei Wang, Yanfu Zhang, Shangqian Gao, Xin Liu
cs.AI
초록
이산 운동 토큰화는 최근 대규모 언어 모델(LLM)이 운동 이해와 운동-언어 추론을 위한 다목적 백본으로 활용될 수 있게 했습니다. 그러나 기존 파이프라인은 일반적으로 운동 양자화와 의미 임베딩 학습을 분리하고, 토큰 ID를 통해서만 이들을 연결합니다. 이 접근법은 운동 공간의 내재적 기하구조를 임베딩 공간과 효과적으로 정렬하지 못하여 LLM의 세밀한 운동 추론 능력을 저해합니다. 우리는 두 양식이 통합된 기하학적 기반을 공유할 때 정렬이 가장 효과적이라고 주장합니다. 따라서 LLM이 운동 토큰 간의 복잡한 기하구조를 처음부터 재구성하도록 강제하는 대신, 우리는 운동 코드북과 LLM 임베딩 공간 양쪽에 명시적으로 직교성을 부과하여 그 관계적 구조가 자연스럽게 서로를 반영하도록 보장하는 새로운 프레임워크를 제시합니다. 구체적으로, 우리는 미분 가능한 학습과 균형 잡힌 코드북 사용을 위해 Gumbel-Softmax를 적용한 디코더 전용 양자화기를 사용합니다. 양식 간의 간극을 메우기 위해, 우리는 직교성을 보존하면서 운동 코드를 LLM 임베딩 공간으로 매핑하는 희소 투영을 사용합니다. 마지막으로, 두 단계의 정규직교 정규화 스케줄은 의미 적응을 방해하지 않으면서 기하학적 정렬을 유지하기 위해 토크나이저 학습과 LLM 미세 조정 동안 소프트 제약 조건을 적용합니다. HumanML3D에 대한 광범위한 실험을 통해 우리 프레임워크가 현재 최첨단 방법들보다 20%의 성능 향상을 달성함을 입증하여, 통합된 기하학적 기반이 LLM의 세밀한 운동 추론 능력을 효과적으로 강화한다는 점을 검증했습니다.
English
Discrete motion tokenization has recently enabled Large Language Models (LLMs) to serve as versatile backbones for motion understanding and motion-language reasoning. However, existing pipelines typically decouple motion quantization from semantic embedding learning, linking them solely via token IDs. This approach fails to effectively align the intrinsic geometry of the motion space with the embedding space, thereby hindering the LLM's capacity for nuanced motion reasoning. We argue that alignment is most effective when both modalities share a unified geometric basis. Therefore, instead of forcing the LLM to reconstruct the complex geometry among motion tokens from scratch, we present a novel framework that explicitly enforces orthogonality on both the motion codebook and the LLM embedding space, ensuring that their relational structures naturally mirror each other. Specifically, we employ a decoder-only quantizer with Gumbel-Softmax for differentiable training and balanced codebook usage. To bridge the modalities, we use a sparse projection that maps motion codes into the LLM embedding space while preserving orthogonality. Finally, a two-stage orthonormal regularization schedule enforces soft constraints during tokenizer training and LLM fine-tuning to maintain geometric alignment without hindering semantic adaptation. Extensive experiments on HumanML3D demonstrate that our framework achieves a 20% performance improvement over current state-of-the-art methods, validating that a unified geometric basis effectively empowers the LLM for nuanced motion reasoning.