ChatPaper.aiChatPaper

Punto de Referencia de Competencia Espacial

Spatial Competence Benchmark

March 5, 2026
Autores: Jash Vira, Ashley Harris
cs.AI

Resumen

La competencia espacial es la cualidad de mantener una representación interna consistente de un entorno y utilizarla para inferir estructuras discretas y planificar acciones bajo restricciones. Las evaluaciones espaciales predominantes para modelos de gran escala se limitan a sondear primitivas aisladas mediante transformaciones 3D o respuestas a preguntas visuales. Presentamos el Benchmark de Competencia Espacial (SCBench), que abarca tres categorías jerárquicas de capacidades cuyas tareas requieren salidas ejecutables verificadas por comprobadores deterministas o evaluadores basados en simuladores. En SCBench, tres modelos de vanguardia muestran una precisión decreciente monótonamente al ascender en la escala de capacidades. Un barrido de límites de tokens de salida revela que las mejoras de precisión se concentran en bajos presupuestos y se saturan rápidamente, y los fallos están dominados por geometría localmente plausible que viola restricciones globales. Publicamos los generadores de tareas, verificadores y herramientas de visualización.
English
Spatial competence is the quality of maintaining a consistent internal representation of an environment and using it to infer discrete structure and plan actions under constraints. Prevailing spatial evaluations for large models are limited to probing isolated primitives through 3D transformations or visual question answering. We introduce the Spatial Competence Benchmark (SCBench), spanning three hierarchical capability buckets whose tasks require executable outputs verified by deterministic checkers or simulator-based evaluators. On SCBench, three frontier models exhibit monotonically decreasing accuracy up the capability ladder. Sweeping output-token caps shows that accuracy gains concentrate at low budgets and saturate quickly, and failures are dominated by locally plausible geometry that breaks global constraints. We release the task generators, verifiers, and visualisation tooling.
PDF11April 16, 2026