Benchmark delle Competenze Spaziali

Abstract

La competenza spaziale è la capacità di mantenere una rappresentazione interna coerente di un ambiente e di utilizzarla per inferire una struttura discreta e pianificare azioni sotto vincoli. Le valutazioni spaziali predominanti per i modelli di grandi dimensioni si limitano a sondare primitive isolate attraverso trasformazioni 3D o questionari visivi. Introduciamo lo Spatial Competence Benchmark (SCBench), che abbraccia tre categorie gerarchiche di capacità, i cui compiti richiedono output eseguibili verificati da controllori deterministici o valutatori basati su simulatore. Su SCBench, tre modelli all'avanguardia mostrano un'accuratezza decrescente in modo monotono salendo la scala delle capacità. Un'analisi sistematica dei limiti dei token di output rivela che i guadagni di accuratezza si concentrano con budget ridotti e si saturano rapidamente, mentre gli errori sono dominati da geometrie localmente plausibili che violano vincoli globali. Rilasciamo i generatori di compiti, i verificatori e gli strumenti di visualizzazione.

English

Spatial competence is the quality of maintaining a consistent internal representation of an environment and using it to infer discrete structure and plan actions under constraints. Prevailing spatial evaluations for large models are limited to probing isolated primitives through 3D transformations or visual question answering. We introduce the Spatial Competence Benchmark (SCBench), spanning three hierarchical capability buckets whose tasks require executable outputs verified by deterministic checkers or simulator-based evaluators. On SCBench, three frontier models exhibit monotonically decreasing accuracy up the capability ladder. Sweeping output-token caps shows that accuracy gains concentrate at low budgets and saturate quickly, and failures are dominated by locally plausible geometry that breaks global constraints. We release the task generators, verifiers, and visualisation tooling.