ChatPaper.aiChatPaper

Ruimtelijk Competentie Benchmark

Spatial Competence Benchmark

March 5, 2026
Auteurs: Jash Vira, Ashley Harris
cs.AI

Samenvatting

Ruimtelijk competentie is het vermogen om een consistente interne representatie van een omgeving te behouden en deze te gebruiken om discrete structuren af te leiden en handelingen te plannen onder beperkingen. Bestaande ruimtelijke evaluaties voor grote modellen zijn beperkt tot het testen van geïsoleerde primitieven via 3D-transformaties of visuele vraag-antwoordtaken. Wij introduceren de Spatial Competence Benchmark (SCBench), die drie hiërarchische capaciteitsniveaus omvat waarvan de taken uitvoerbare outputs vereisen die worden geverifieerd door deterministische checkers of op simulatoren gebaseerde evaluatoren. Op SCBench vertonen drie toonaangevende modellen een monotoon dalende nauwkeurigheid naarmate de capaciteitsladder wordt beklommen. Experimenten met tokenlimieten tonen aan dat nauwkeurigheidswinst zich concentreert bij lage budgets en snel verzadigt, waarbij fouten vooral bestaan uit lokaal plausibele geometrie die globale beperkingen schendt. Wij publiceren de taakgeneratoren, verifiers en visualisatietools.
English
Spatial competence is the quality of maintaining a consistent internal representation of an environment and using it to infer discrete structure and plan actions under constraints. Prevailing spatial evaluations for large models are limited to probing isolated primitives through 3D transformations or visual question answering. We introduce the Spatial Competence Benchmark (SCBench), spanning three hierarchical capability buckets whose tasks require executable outputs verified by deterministic checkers or simulator-based evaluators. On SCBench, three frontier models exhibit monotonically decreasing accuracy up the capability ladder. Sweeping output-token caps shows that accuracy gains concentrate at low budgets and saturate quickly, and failures are dominated by locally plausible geometry that breaks global constraints. We release the task generators, verifiers, and visualisation tooling.
PDF22April 18, 2026