ChatPaper.aiChatPaper

GeoMotionGPT: Comprensión del Movimiento Alineado con Geometría mediante Modelos de Lenguaje a Gran Escala

GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models

January 12, 2026
Autores: Zhankai Ye, Bofan Li, Yukai Jin, Shuoqiu Li, Wei Wang, Yanfu Zhang, Shangqian Gao, Xin Liu
cs.AI

Resumen

La tokenización discreta del movimiento ha permitido recientemente que los Modelos de Lenguaje a Gran Escala (LLMs) funcionen como estructuras versátiles para la comprensión del movimiento y el razonamiento entre movimiento y lenguaje. Sin embargo, los flujos de trabajo existentes generalmente disocian la cuantización del movimiento del aprendizaje de incrustaciones semánticas, vinculándolos únicamente mediante identificadores de tokens. Este enfoque no logra alinear efectivamente la geometría intrínseca del espacio de movimiento con el espacio de incrustación, dificultando así la capacidad del LLM para realizar un razonamiento sutil sobre el movimiento. Sostenemos que la alineación es más efectiva cuando ambas modalidades comparten una base geométrica unificada. Por lo tanto, en lugar de forzar al LLM a reconstruir desde cero la compleja geometría entre los tokens de movimiento, presentamos un marco novedoso que aplica explícitamente ortogonalidad tanto al codebook de movimiento como al espacio de incrustación del LLM, garantizando que sus estructuras relacionales se reflejen mutuamente de forma natural. Específicamente, empleamos un cuantizador de solo decodificación con Gumbel-Softmax para un entrenamiento diferenciable y un uso equilibrado del codebook. Para conectar las modalidades, utilizamos una proyección dispersa que mapea los códigos de movimiento al espacio de incrustación del LLM preservando la ortogonalidad. Finalmente, un programa de regularización ortonormal en dos etapas aplica restricciones suaves durante el entrenamiento del tokenizador y el ajuste fino del LLM para mantener la alineación geométrica sin obstaculizar la adaptación semántica. Experimentos exhaustivos en HumanML3D demuestran que nuestro marco logra una mejora del 20% en el rendimiento sobre los métodos actuales del estado del arte, validando que una base geométrica unificada empodera efectivamente al LLM para un razonamiento sutil sobre el movimiento.
English
Discrete motion tokenization has recently enabled Large Language Models (LLMs) to serve as versatile backbones for motion understanding and motion-language reasoning. However, existing pipelines typically decouple motion quantization from semantic embedding learning, linking them solely via token IDs. This approach fails to effectively align the intrinsic geometry of the motion space with the embedding space, thereby hindering the LLM's capacity for nuanced motion reasoning. We argue that alignment is most effective when both modalities share a unified geometric basis. Therefore, instead of forcing the LLM to reconstruct the complex geometry among motion tokens from scratch, we present a novel framework that explicitly enforces orthogonality on both the motion codebook and the LLM embedding space, ensuring that their relational structures naturally mirror each other. Specifically, we employ a decoder-only quantizer with Gumbel-Softmax for differentiable training and balanced codebook usage. To bridge the modalities, we use a sparse projection that maps motion codes into the LLM embedding space while preserving orthogonality. Finally, a two-stage orthonormal regularization schedule enforces soft constraints during tokenizer training and LLM fine-tuning to maintain geometric alignment without hindering semantic adaptation. Extensive experiments on HumanML3D demonstrate that our framework achieves a 20% performance improvement over current state-of-the-art methods, validating that a unified geometric basis effectively empowers the LLM for nuanced motion reasoning.
PDF11January 15, 2026