AlphaSpace: Обеспечение роботизированных действий через семантическую токенизацию и символическое рассуждение
AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning
March 24, 2025
Авторы: Alan Dao, Dinh Bach Vu, Bui Quang Huy
cs.AI
Аннотация
В данной статье представлена AlphaSpace — новая методология, разработанная для улучшения пространственных способностей крупных языковых моделей (LLM) в навигации по трёхмерному декартову пространству. AlphaSpace использует стратегию семантической токенизации, кодируя информацию о высоте с помощью специализированных семантических токенов, и интегрирует преимущественно символические синтетические данные для рассуждений. Этот подход позволяет LLM точно манипулировать объектами, размещая их в определённых координатах [x, y, z]. Результаты экспериментов показывают, что AlphaSpace значительно превосходит существующие модели в подзадачах манипуляции, достигая общей точности 66,67% по сравнению с 37,5% у GPT-4o и 29,17% у Claude 3.5 Sonnet.
English
This paper presents AlphaSpace, a novel methodology designed to enhance the
spatial reasoning capabilities of large language models (LLMs) for 3D Cartesian
space navigation. AlphaSpace employs a semantics-based tokenization strategy,
encoding height information through specialized semantic tokens, and integrates
primarily symbolic synthetic reasoning data. This approach enables LLMs to
accurately manipulate objects by positioning them at specific [x, y, z]
coordinates. Experimental results demonstrate that AlphaSpace significantly
outperforms existing models on manipulation subtasks, achieving a total
accuracy of 66.67%, compared to 37.5% for GPT-4o and 29.17% for Claude 3.5
Sonnet.Summary
AI-Generated Summary