ESI-Bench : Vers une Intelligence Spatiale Incarnée qui ferme la boucle perception-action

Résumé

L'intelligence spatiale se déploie dans une boucle perception-action : les agents agissent pour acquérir des observations et raisonnent sur la manière dont les observations varient en fonction de l'action. Plutôt que de traiter passivement ce qui est vu, ils découvrent activement ce qui est invisible — structures occultées, dynamiques, contenance et fonctionnalités qui ne peuvent être résolues par la seule perception passive. Nous dépassons les formulations antérieures de l'intelligence spatiale qui supposent des observations de type oracle en redéfinissant l'observateur comme un acteur. Nous introduisons ESI-BENCH, un benchmark complet pour l'intelligence spatiale incarnée couvrant 10 catégories de tâches et 29 sous-catégories, construit sur OmniGibson et ancré dans les systèmes de connaissances fondamentaux de Spelke. Les agents doivent décider quelles capacités déployer — perception, locomotion et manipulation — et comment les séquencer pour accumuler activement des preuves pertinentes pour la tâche. Nous menons des expériences approfondies sur des MLLMs de pointe et constatons que l'exploration active surpasse largement les approches passives, les agents découvrant spontanément des stratégies spatiales émergentes sans instructions explicites, tandis que les vues multiples aléatoires ajoutent souvent du bruit plutôt que du signal, malgré une consommation bien supérieure d'images. La plupart des échecs ne proviennent pas d'une perception faible mais d'une cécité d'action : de mauvais choix d'action entraînent de mauvaises observations, qui à leur tour génèrent des erreurs en cascade. Alors que l'ancrage explicite en 3D stabilise le raisonnement sur les tâches dépendantes de la profondeur, une représentation 3D imparfaite s'avère plus nuisible que les références 2D en déformant les relations spatiales. Des études humaines révèlent en outre que, contrairement aux humains qui recherchent des points de vue infirmants et révisent leurs croyances face à une contradiction, les modèles s'engagent prématurément avec une confiance élevée, quelle que soit la qualité des preuves, exposant un fossé métacognitif que ni une meilleure perception ni une interaction incarnée plus poussée ne peuvent combler à elles seules.

English

Spatial intelligence unfolds through a perception-action loop: agents act to acquire observations, and reason about how observations vary as a function of action. Rather than passively processing what is seen, they actively uncover what is unseen - occluded structure, dynamics, containment, and functionality that cannot be resolved from passive sensing alone. We move beyond prior formulations of spatial intelligence that assume oracle observations by recasting the observer as an actor. We introduce ESI-BENCH, a comprehensive benchmark for embodied spatial intelligence spanning 10 task categories and 29 subcategories built on OmniGibson, grounded in Spelke's core knowledge systems. Agents must decide what abilities to deploy - perception, locomotion, and manipulation - and how to sequence them to actively accumulate task-relevant evidence. We conduct extensive experiments on state-of-the-art MLLMs and find that active exploration substantially outperforms passive counterparts, with agents spontaneously discovering emergent spatial strategies without explicit instructions, while random multi-view often adds noise rather than signal despite consuming far more images. Most failures stem not from weak perception but from action blindness: poor action choices lead to poor observations, which in turn drive cascading errors. While explicit 3D grounding stabilizes reasoning on depth-sensitive tasks, imperfect 3D representation proves more harmful than 2D baselines by distorting spatial relations. Human studies further reveal that unlike humans who seek falsifying viewpoints and revise beliefs under contradiction, models commit prematurely with high confidence regardless of evidence quality, exposing a metacognitive gap that neither better perception nor more embodied interaction alone can close.