AlphaSpace : Permettre les actions robotiques grâce à la tokenisation sémantique et au raisonnement symbolique
AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning
March 24, 2025
Auteurs: Alan Dao, Dinh Bach Vu, Bui Quang Huy
cs.AI
Résumé
Cet article présente AlphaSpace, une nouvelle méthodologie conçue pour améliorer les capacités de raisonnement spatial des grands modèles de langage (LLM) dans la navigation en espace cartésien 3D. AlphaSpace utilise une stratégie de tokenisation basée sur la sémantique, encodant les informations de hauteur à travers des tokens sémantiques spécialisés, et intègre principalement des données de raisonnement synthétique symboliques. Cette approche permet aux LLM de manipuler avec précision des objets en les positionnant à des coordonnées [x, y, z] spécifiques. Les résultats expérimentaux montrent qu'AlphaSpace surpasse significativement les modèles existants sur les sous-tâches de manipulation, atteignant une précision totale de 66,67 %, contre 37,5 % pour GPT-4o et 29,17 % pour Claude 3.5 Sonnet.
English
This paper presents AlphaSpace, a novel methodology designed to enhance the
spatial reasoning capabilities of large language models (LLMs) for 3D Cartesian
space navigation. AlphaSpace employs a semantics-based tokenization strategy,
encoding height information through specialized semantic tokens, and integrates
primarily symbolic synthetic reasoning data. This approach enables LLMs to
accurately manipulate objects by positioning them at specific [x, y, z]
coordinates. Experimental results demonstrate that AlphaSpace significantly
outperforms existing models on manipulation subtasks, achieving a total
accuracy of 66.67%, compared to 37.5% for GPT-4o and 29.17% for Claude 3.5
Sonnet.Summary
AI-Generated Summary