ChatPaper.aiChatPaper

GeoMotionGPT: Geometrieausgerichtete Bewegungsverständnis mit großen Sprachmodellen

GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models

January 12, 2026
papers.authors: Zhankai Ye, Bofan Li, Yukai Jin, Shuoqiu Li, Wei Wang, Yanfu Zhang, Shangqian Gao, Xin Liu
cs.AI

papers.abstract

Diskrete Motion-Tokenisierung hat kürzlich ermöglicht, dass Large Language Models (LLMs) als vielseitige Backbones für das Verständnis von Bewegung und für Bewegungs-Sprach-Relationierung dienen können. Bestehende Pipelines entkoppeln jedoch typischerweise die Motion-Quantisierung vom semantischen Embedding-Lernen und verbinden diese lediglich über Token-IDs. Dieser Ansatz vermag die intrinsische Geometrie des Bewegungsraums nicht effektiv mit dem Embedding-Raum in Einklang zu bringen, was die Fähigkeit des LLM zur nuancierten Bewegungsrelationierung beeinträchtigt. Wir vertreten die Auffassung, dass eine Abstimmung dann am effektivsten ist, wenn beide Modalitäten eine einheitliche geometrische Basis teilen. Daher stellen wir, anstatt das LLM zu zwingen, die komplexe Geometrie zwischen Motion-Tokens von Grund auf neu zu rekonstruieren, ein neuartiges Framework vor, das explizit Orthogonalität sowohl im Motion-Codebook als auch im LLM-Embedding-Raum erzwingt und so sicherstellt, dass sich ihre relationalen Strukturen natürlich spiegeln. Konkret setzen wir einen Decoder-only-Quantizer mit Gumbel-Softmax für differenzierbares Training und ausgewogene Codebook-Nutzung ein. Um die Modalitäten zu verbinden, verwenden wir eine sparse Projektion, die Motion-Codes unter Wahrung der Orthogonalität in den LLM-Embedding-Raum abbildet. Abschließend erzwingt ein zweistufiger Orthonormalisierungs-Regularisierungsplan weiche Constraints während des Tokenizer-Trainings und des LLM-Fine-Tunings, um die geometrische Ausrichtung ohne Beeinträchtigung der semantischen Anpassung aufrechtzuerhalten. Umfangreiche Experimente auf HumanML3D belegen, dass unser Framework eine Leistungssteigerung von 20 % gegenüber aktuellen State-of-the-Art-Methoden erzielt, was validiert, dass eine einheitliche geometrische Basis das LLM effektiv für nuancierte Bewegungsrelationierung befähigt.
English
Discrete motion tokenization has recently enabled Large Language Models (LLMs) to serve as versatile backbones for motion understanding and motion-language reasoning. However, existing pipelines typically decouple motion quantization from semantic embedding learning, linking them solely via token IDs. This approach fails to effectively align the intrinsic geometry of the motion space with the embedding space, thereby hindering the LLM's capacity for nuanced motion reasoning. We argue that alignment is most effective when both modalities share a unified geometric basis. Therefore, instead of forcing the LLM to reconstruct the complex geometry among motion tokens from scratch, we present a novel framework that explicitly enforces orthogonality on both the motion codebook and the LLM embedding space, ensuring that their relational structures naturally mirror each other. Specifically, we employ a decoder-only quantizer with Gumbel-Softmax for differentiable training and balanced codebook usage. To bridge the modalities, we use a sparse projection that maps motion codes into the LLM embedding space while preserving orthogonality. Finally, a two-stage orthonormal regularization schedule enforces soft constraints during tokenizer training and LLM fine-tuning to maintain geometric alignment without hindering semantic adaptation. Extensive experiments on HumanML3D demonstrate that our framework achieves a 20% performance improvement over current state-of-the-art methods, validating that a unified geometric basis effectively empowers the LLM for nuanced motion reasoning.
PDF11January 15, 2026