Emergono le Cognizioni Spaziali nei Modelli di Frontiera?

Abstract

Non ancora. Presentiamo SPACE, un benchmark che valuta sistematicamente la cognizione spaziale nei modelli di frontiera. Il nostro benchmark si basa su decenni di ricerca in scienze cognitive. Valuta le capacità di mappatura su larga scala che vengono utilizzate quando un organismo attraversa ambienti fisici, il ragionamento su scala più piccola riguardante forme e disposizioni degli oggetti, e l'infrastruttura cognitiva come l'attenzione spaziale e la memoria. Per molte attività, istanziamo presentazioni parallele tramite testo e immagini, consentendoci di valutare sia i grandi modelli linguistici che i grandi modelli multimodali. I risultati suggeriscono che i modelli di frontiera contemporanei non raggiungono l'intelligenza spaziale degli animali, ottenendo risultati vicini al livello casuale su diversi test classici di cognizione animale.

English

Not yet. We present SPACE, a benchmark that systematically evaluates spatial cognition in frontier models. Our benchmark builds on decades of research in cognitive science. It evaluates large-scale mapping abilities that are brought to bear when an organism traverses physical environments, smaller-scale reasoning about object shapes and layouts, and cognitive infrastructure such as spatial attention and memory. For many tasks, we instantiate parallel presentations via text and images, allowing us to benchmark both large language models and large multimodal models. Results suggest that contemporary frontier models fall short of the spatial intelligence of animals, performing near chance level on a number of classic tests of animal cognition.

Emergono le Cognizioni Spaziali nei Modelli di Frontiera?

Does Spatial Cognition Emerge in Frontier Models?

Abstract

Support