GeoMotionGPT: Comprensione del Movimento Allineato alla Geometria con Modelli Linguistici di Grande Dimensione

Abstract

La tokenizzazione discreta del movimento ha recentemente consentito ai Large Language Model (LLM) di fungere da architetture versatili per la comprensione del movimento e il ragionamento movimento-linguaggio. Tuttavia, le pipeline esistenti tipicamente dissociano la quantizzazione del movimento dall'apprendimento degli embedding semantici, collegandoli esclusivamente tramite ID di token. Questo approccio non riesce ad allineare efficacemente la geometria intrinseca dello spazio del movimento con lo spazio degli embedding, ostacolando così la capacità dell'LLM di compiere ragionamenti sfumati sul movimento. Sosteniamo che l'allineamento sia più efficace quando entrambe le modalità condividono una base geometrica unificata. Pertanto, invece di forzare l'LLM a ricostruire da zero la complessa geometria tra i token di movimento, presentiamo un framework innovativo che applica esplicitamente l'ortogonalità sia al codebook del movimento che allo spazio di embedding dell'LLM, garantendo che le loro strutture relazionali si rispecchino naturalmente. Nello specifico, utilizziamo un quantizzatore decoder-only con Gumbel-Softmax per un training differenziabile e un utilizzo bilanciato del codebook. Per collegare le modalità, impieghiamo una proiezione sparsa che mappa i codici di movimento nello spazio di embedding dell'LLM preservando l'ortogonalità. Infine, una schedulazione di regolarizzazione ortonormale a due stadi applica vincoli soft durante l'addestramento del tokenizer e il fine-tuning dell'LLM per mantenere l'allineamento geometrico senza ostacolare l'adattamento semantico. Esperimenti estensivi su HumanML3D dimostrano che il nostro framework raggiunge un miglioramento delle prestazioni del 20% rispetto ai metodi state-of-the-art attuali, convalidando che una base geometrica unificata potenzia efficacemente l'LLM per un ragionamento sul movimento più sfumato.

English

Discrete motion tokenization has recently enabled Large Language Models (LLMs) to serve as versatile backbones for motion understanding and motion-language reasoning. However, existing pipelines typically decouple motion quantization from semantic embedding learning, linking them solely via token IDs. This approach fails to effectively align the intrinsic geometry of the motion space with the embedding space, thereby hindering the LLM's capacity for nuanced motion reasoning. We argue that alignment is most effective when both modalities share a unified geometric basis. Therefore, instead of forcing the LLM to reconstruct the complex geometry among motion tokens from scratch, we present a novel framework that explicitly enforces orthogonality on both the motion codebook and the LLM embedding space, ensuring that their relational structures naturally mirror each other. Specifically, we employ a decoder-only quantizer with Gumbel-Softmax for differentiable training and balanced codebook usage. To bridge the modalities, we use a sparse projection that maps motion codes into the LLM embedding space while preserving orthogonality. Finally, a two-stage orthonormal regularization schedule enforces soft constraints during tokenizer training and LLM fine-tuning to maintain geometric alignment without hindering semantic adaptation. Extensive experiments on HumanML3D demonstrate that our framework achieves a 20% performance improvement over current state-of-the-art methods, validating that a unified geometric basis effectively empowers the LLM for nuanced motion reasoning.

GeoMotionGPT: Comprensione del Movimento Allineato alla Geometria con Modelli Linguistici di Grande Dimensione

GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models

Abstract

Support