A Cognição Espacial Surge em Modelos de Fronteira?

Resumo

Ainda não. Apresentamos o SPACE, um benchmark que avalia sistematicamente a cognição espacial em modelos de ponta. Nosso benchmark se baseia em décadas de pesquisa em ciências cognitivas. Ele avalia habilidades de mapeamento em larga escala que são utilizadas quando um organismo atravessa ambientes físicos, raciocínio em menor escala sobre formas e disposições de objetos, e infraestrutura cognitiva como atenção espacial e memória. Para muitas tarefas, instanciamos apresentações paralelas via texto e imagens, permitindo-nos avaliar tanto grandes modelos de linguagem quanto grandes modelos multimodais. Os resultados sugerem que os modelos de ponta contemporâneos não alcançam a inteligência espacial dos animais, apresentando desempenho próximo ao nível de chance em diversos testes clássicos de cognição animal.

English

Not yet. We present SPACE, a benchmark that systematically evaluates spatial cognition in frontier models. Our benchmark builds on decades of research in cognitive science. It evaluates large-scale mapping abilities that are brought to bear when an organism traverses physical environments, smaller-scale reasoning about object shapes and layouts, and cognitive infrastructure such as spatial attention and memory. For many tasks, we instantiate parallel presentations via text and images, allowing us to benchmark both large language models and large multimodal models. Results suggest that contemporary frontier models fall short of the spatial intelligence of animals, performing near chance level on a number of classic tests of animal cognition.

A Cognição Espacial Surge em Modelos de Fronteira?

Does Spatial Cognition Emerge in Frontier Models?

Resumo

Support