ChatPaper.aiChatPaper

GeoMotionGPT: Геометрически-согласованное понимание движения с помощью больших языковых моделей

GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models

January 12, 2026
Авторы: Zhankai Ye, Bofan Li, Yukai Jin, Shuoqiu Li, Wei Wang, Yanfu Zhang, Shangqian Gao, Xin Liu
cs.AI

Аннотация

Дискретная токенизация движений недавно позволила большим языковым моделям (LLM) выступать в качестве универсальных основ для понимания движений и семантического анализа, связывающего движения и язык. Однако существующие подходы обычно разделяют квантование движений и обучение семантическим представлениям, связывая их лишь через идентификаторы токенов. Такой метод не позволяет эффективно согласовать внутреннюю геометрию пространства движений с пространством векторных представлений, что ограничивает способность LLM к тонкому семантическому анализу движений. Мы полагаем, что выравнивание наиболее эффективно, когда обе модальности имеют единую геометрическую основу. Поэтому вместо того, чтобы заставлять LLM заново восстанавливать сложную геометрию между токенами движений, мы предлагаем новую архитектуру, которая явно обеспечивает ортогональность как для кодовой книги движений, так и для пространства векторных представлений LLM, гарантируя, что их реляционные структуры естественно отражают друг друга. В частности, мы используем квантизатор только с декодером и Gumbel-Softmax для дифференцируемого обучения и сбалансированного использования кодовой книги. Для связи модальностей применяется разреженная проекция, которая отображает коды движений в пространство векторных представлений LLM с сохранением ортогональности. Наконец, двухэтапный график ортонормальной регуляризации накладывает мягкие ограничения во время обучения токенизатора и тонкой настройки LLM для поддержания геометрического выравнивания без ущерба для семантической адаптации. Многочисленные эксперименты на наборе данных HumanML3D показывают, что наша архитектура обеспечивает 20% прирост производительности по сравнению с современными методами, подтверждая, что единая геометрическая основа эффективно расширяет возможности LLM для тонкого семантического анализа движений.
English
Discrete motion tokenization has recently enabled Large Language Models (LLMs) to serve as versatile backbones for motion understanding and motion-language reasoning. However, existing pipelines typically decouple motion quantization from semantic embedding learning, linking them solely via token IDs. This approach fails to effectively align the intrinsic geometry of the motion space with the embedding space, thereby hindering the LLM's capacity for nuanced motion reasoning. We argue that alignment is most effective when both modalities share a unified geometric basis. Therefore, instead of forcing the LLM to reconstruct the complex geometry among motion tokens from scratch, we present a novel framework that explicitly enforces orthogonality on both the motion codebook and the LLM embedding space, ensuring that their relational structures naturally mirror each other. Specifically, we employ a decoder-only quantizer with Gumbel-Softmax for differentiable training and balanced codebook usage. To bridge the modalities, we use a sparse projection that maps motion codes into the LLM embedding space while preserving orthogonality. Finally, a two-stage orthonormal regularization schedule enforces soft constraints during tokenizer training and LLM fine-tuning to maintain geometric alignment without hindering semantic adaptation. Extensive experiments on HumanML3D demonstrate that our framework achieves a 20% performance improvement over current state-of-the-art methods, validating that a unified geometric basis effectively empowers the LLM for nuanced motion reasoning.
PDF11January 15, 2026