Raumkompetenz-Benchmark

Zusammenfassung

Räumliche Kompetenz bezeichnet die Fähigkeit, eine konsistente interne Repräsentation einer Umgebung aufrechtzuerhalten und diese zu nutzen, um diskrete Strukturen abzuleiten sowie Handlungen unter Nebenbedingungen zu planen. Bisherige räumliche Evaluierungen für Großmodelle beschränken sich darauf, isolierte Grundfähigkeiten durch 3D-Transformationen oder visuelle Fragebeantwortung zu testen. Wir stellen den Spatial Competence Benchmark (SCBench) vor, der drei hierarchische Fähigkeitsbereiche umfasst, deren Aufgaben ausführbare Ergebnisse erfordern, die durch deterministische Prüfprogramme oder simulationsbasierte Evaluatoren verifiziert werden. Auf SCBench zeigen drei führende Modelle eine monoton abnehmende Genauigkeit entlang der Fähigkeitsleiter. Eine systematische Variation der Ausgabe-Token-Obergrenzen zeigt, dass Genauigkeitsgewinne sich auf niedrige Budgets konzentrieren und schnell sättigen, wobei Fehler hauptsächlich auf lokal plausible Geometrie zurückgehen, die globale Constraints verletzt. Wir veröffentlichen die Aufgaben-Generatoren, Verifizierer und Visualisierungswerkzeuge.

English

Spatial competence is the quality of maintaining a consistent internal representation of an environment and using it to infer discrete structure and plan actions under constraints. Prevailing spatial evaluations for large models are limited to probing isolated primitives through 3D transformations or visual question answering. We introduce the Spatial Competence Benchmark (SCBench), spanning three hierarchical capability buckets whose tasks require executable outputs verified by deterministic checkers or simulator-based evaluators. On SCBench, three frontier models exhibit monotonically decreasing accuracy up the capability ladder. Sweeping output-token caps shows that accuracy gains concentrate at low budgets and saturate quickly, and failures are dominated by locally plausible geometry that breaks global constraints. We release the task generators, verifiers, and visualisation tooling.