Benchmark de Compétence Spatiale

Résumé

La compétence spatiale est la capacité de maintenir une représentation interne cohérente d'un environnement et de l'utiliser pour inférer une structure discrète et planifier des actions sous contraintes. Les évaluations spatiales dominantes pour les grands modèles se limitent à sonder des primitives isolées via des transformations 3D ou des réponses à des questions visuelles. Nous présentons le Benchmark de Compétence Spatiale (SCBench), couvrant trois paliers de capacités hiérarchiques dont les tâches nécessitent des sorties exécutables vérifiées par des contrôleurs déterministes ou des évaluateurs basés sur des simulateurs. Sur SCBench, trois modèles de pointe présentent une précision décroissant de manière monotone à mesure que la complexité des capacités augmente. Une exploration systématique des limites de tokens de sortie révèle que les gains de précision se concentrent sur les budgets faibles et se saturent rapidement, tandis que les échecs sont dominés par une géométrie localement plausible qui rompt les contraintes globales. Nous publions les générateurs de tâches, les vérificateurs et les outils de visualisation.

English

Spatial competence is the quality of maintaining a consistent internal representation of an environment and using it to infer discrete structure and plan actions under constraints. Prevailing spatial evaluations for large models are limited to probing isolated primitives through 3D transformations or visual question answering. We introduce the Spatial Competence Benchmark (SCBench), spanning three hierarchical capability buckets whose tasks require executable outputs verified by deterministic checkers or simulator-based evaluators. On SCBench, three frontier models exhibit monotonically decreasing accuracy up the capability ladder. Sweeping output-token caps shows that accuracy gains concentrate at low budgets and saturate quickly, and failures are dominated by locally plausible geometry that breaks global constraints. We release the task generators, verifiers, and visualisation tooling.