AlphaSpace: Habilitando Ações Robóticas por meio de Tokenização Semântica e Raciocínio Simbólico
AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning
March 24, 2025
Autores: Alan Dao, Dinh Bach Vu, Bui Quang Huy
cs.AI
Resumo
Este artigo apresenta o AlphaSpace, uma nova metodologia projetada para aprimorar as capacidades de raciocínio espacial de modelos de linguagem de grande escala (LLMs) para navegação em espaço cartesiano 3D. O AlphaSpace emprega uma estratégia de tokenização baseada em semântica, codificando informações de altura por meio de tokens semânticos especializados, e integra principalmente dados sintéticos de raciocínio simbólico. Essa abordagem permite que os LLMs manipulem objetos com precisão, posicionando-os em coordenadas específicas [x, y, z]. Os resultados experimentais demonstram que o AlphaSpace supera significativamente os modelos existentes em subtarefas de manipulação, alcançando uma precisão total de 66,67%, em comparação com 37,5% do GPT-4o e 29,17% do Claude 3.5 Sonnet.
English
This paper presents AlphaSpace, a novel methodology designed to enhance the
spatial reasoning capabilities of large language models (LLMs) for 3D Cartesian
space navigation. AlphaSpace employs a semantics-based tokenization strategy,
encoding height information through specialized semantic tokens, and integrates
primarily symbolic synthetic reasoning data. This approach enables LLMs to
accurately manipulate objects by positioning them at specific [x, y, z]
coordinates. Experimental results demonstrate that AlphaSpace significantly
outperforms existing models on manipulation subtasks, achieving a total
accuracy of 66.67%, compared to 37.5% for GPT-4o and 29.17% for Claude 3.5
Sonnet.Summary
AI-Generated Summary