Возникает ли пространственное мышление в моделях фронтира?

Аннотация

Еще нет. Мы представляем SPACE, бенчмарк, который систематически оценивает пространственное когнитивное восприятие в передовых моделях. Наш бенчмарк основан на десятилетиях исследований в области когнитивной науки. Он оценивает возможности крупномасштабного картографирования, которые используются организмом при перемещении в физических средах, мелкомасштабное рассуждение о формах объектов и их расположении, а также когнитивную инфраструктуру, такую как пространственное внимание и память. Для многих задач мы создаем параллельные представления с использованием текста и изображений, что позволяет нам оценивать как крупные языковые модели, так и крупные мультимодальные модели. Результаты свидетельствуют о том, что современные передовые модели уступают в пространственном интеллекте животным, показывая результаты близкие к случайному уровню на ряде классических тестов когнитивных способностей животных.

English

Not yet. We present SPACE, a benchmark that systematically evaluates spatial cognition in frontier models. Our benchmark builds on decades of research in cognitive science. It evaluates large-scale mapping abilities that are brought to bear when an organism traverses physical environments, smaller-scale reasoning about object shapes and layouts, and cognitive infrastructure such as spatial attention and memory. For many tasks, we instantiate parallel presentations via text and images, allowing us to benchmark both large language models and large multimodal models. Results suggest that contemporary frontier models fall short of the spatial intelligence of animals, performing near chance level on a number of classic tests of animal cognition.