ESI-Bench: Hacia una Inteligencia Espacial Corporizada que Cierra el Bucle Percepción-Acción

Resumen

La inteligencia espacial se despliega a través de un bucle de percepción-acción: los agentes actúan para adquirir observaciones y razonan sobre cómo estas varían en función de la acción. En lugar de procesar pasivamente lo que ven, descubren activamente lo que no es visible: estructura ocluida, dinámica, contención y funcionalidad que no pueden resolverse únicamente mediante la percepción pasiva. Superamos formulaciones previas de inteligencia espacial que asumen observaciones de oráculo, reformulando al observador como un actor. Presentamos ESI-BENCH, un punto de referencia integral para la inteligencia espacial incorporada que abarca 10 categorías de tareas y 29 subcategorías basadas en OmniGibson, fundamentado en los sistemas de conocimiento central de Spelke. Los agentes deben decidir qué habilidades desplegar (percepción, locomoción y manipulación) y cómo secuenciarlas para acumular activamente evidencia relevante para la tarea. Realizamos experimentos exhaustivos con MLLMs de última generación y encontramos que la exploración activa supera sustancialmente a las contrapartes pasivas, con agentes que descubren espontáneamente estrategias espaciales emergentes sin instrucciones explícitas, mientras que la multivista aleatoria a menudo añade ruido en lugar de señal, a pesar de consumir muchas más imágenes. La mayoría de los fallos no provienen de una percepción débil, sino de ceguera a la acción: malas elecciones de acción conducen a malas observaciones, lo que a su vez genera errores en cascada. Si bien el anclaje 3D explícito estabiliza el razonamiento en tareas sensibles a la profundidad, la representación 3D imperfecta resulta más perjudicial que las líneas base 2D al distorsionar las relaciones espaciales. Los estudios con humanos revelan además que, a diferencia de los humanos, que buscan puntos de vista falsadores y revisan sus creencias ante contradicciones, los modelos se comprometen prematuramente con alta confianza independientemente de la calidad de la evidencia, exponiendo una brecha metacognitiva que ni una mejor percepción ni una interacción más incorporada pueden cerrar por sí solas.

English

Spatial intelligence unfolds through a perception-action loop: agents act to acquire observations, and reason about how observations vary as a function of action. Rather than passively processing what is seen, they actively uncover what is unseen - occluded structure, dynamics, containment, and functionality that cannot be resolved from passive sensing alone. We move beyond prior formulations of spatial intelligence that assume oracle observations by recasting the observer as an actor. We introduce ESI-BENCH, a comprehensive benchmark for embodied spatial intelligence spanning 10 task categories and 29 subcategories built on OmniGibson, grounded in Spelke's core knowledge systems. Agents must decide what abilities to deploy - perception, locomotion, and manipulation - and how to sequence them to actively accumulate task-relevant evidence. We conduct extensive experiments on state-of-the-art MLLMs and find that active exploration substantially outperforms passive counterparts, with agents spontaneously discovering emergent spatial strategies without explicit instructions, while random multi-view often adds noise rather than signal despite consuming far more images. Most failures stem not from weak perception but from action blindness: poor action choices lead to poor observations, which in turn drive cascading errors. While explicit 3D grounding stabilizes reasoning on depth-sensitive tasks, imperfect 3D representation proves more harmful than 2D baselines by distorting spatial relations. Human studies further reveal that unlike humans who seek falsifying viewpoints and revise beliefs under contradiction, models commit prematurely with high confidence regardless of evidence quality, exposing a metacognitive gap that neither better perception nor more embodied interaction alone can close.