¿Surge la Cognición Espacial en Modelos de Frontera?

Resumen

Aún no. Presentamos SPACE, un banco de pruebas que evalúa sistemáticamente la cognición espacial en modelos de vanguardia. Nuestro banco de pruebas se basa en décadas de investigación en ciencias cognitivas. Evalúa habilidades de mapeo a gran escala que se ponen en juego cuando un organismo atraviesa entornos físicos, razonamientos a menor escala sobre formas y disposiciones de objetos, e infraestructuras cognitivas como la atención espacial y la memoria. Para muchas tareas, instanciamos presentaciones paralelas a través de texto e imágenes, lo que nos permite evaluar tanto grandes modelos de lenguaje como grandes modelos multimodales. Los resultados sugieren que los modelos de vanguardia contemporáneos no alcanzan la inteligencia espacial de los animales, teniendo un rendimiento cercano al azar en varias pruebas clásicas de cognición animal.

English

Not yet. We present SPACE, a benchmark that systematically evaluates spatial cognition in frontier models. Our benchmark builds on decades of research in cognitive science. It evaluates large-scale mapping abilities that are brought to bear when an organism traverses physical environments, smaller-scale reasoning about object shapes and layouts, and cognitive infrastructure such as spatial attention and memory. For many tasks, we instantiate parallel presentations via text and images, allowing us to benchmark both large language models and large multimodal models. Results suggest that contemporary frontier models fall short of the spatial intelligence of animals, performing near chance level on a number of classic tests of animal cognition.