ChatPaper.aiChatPaper

SpatialEvo : Intelligence spatiale auto-évolutive via des environnements géométriques déterministes

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

April 15, 2026
Auteurs: Dinging Li, Yingxiu Zhao, Xinrui Cheng, Kangheng Lin, Hongbo Peng, Hongxing Li, Zixuan Wang, Yuhong Dai, Haodong Li, Jia Wang, Yukang Shi, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI

Résumé

Le raisonnement spatial sur des scènes tridimensionnelles est une capacité fondamentale pour l'intelligence incarnée, mais l'amélioration continue des modèles reste limitée par le coût de l'annotation géométrique. Le paradigme d'auto-évolution offre une voie prometteuse, mais sa dépendance au consensus du modèle pour construire des pseudo-étiquettes entraîne un renforcement plutôt qu'une correction des erreurs géométriques du modèle. Nous identifions une propriété unique au raisonnement spatial 3D qui contourne cette limitation : la vérité terrain est une conséquence déterministe de la géométrie sous-jacente, calculable exactement à partir de nuages de points et de poses de caméra sans aucune intervention du modèle. Forts de cette intuition, nous présentons SpatialEvo, un cadre d'auto-évolution pour le raisonnement spatial 3D, centré sur l'Environnement Géométrique Déterministe (EGD). L'EGD formalise 16 catégories de tâches de raisonnement spatial sous des règles de validation géométrique explicites et convertit des scènes 3D non annotées en oracles interactifs sans bruit, remplaçant le consensus du modèle par un retour d'information physique objectif. Une politique unique à paramètres partagés co-évolue entre les rôles de questionneur et de solveur sous les contraintes de l'EGD : le questionneur génère des questions spatiales physiquement valides ancrées dans les observations de la scène, tandis que le solveur déduit des réponses précises par rapport à la vérité terrain vérifiée par l'EGD. Un planificateur adaptatif aux tâches concentre endogènement l'entraînement sur les catégories les plus faibles du modèle, produisant un curriculum dynamique sans conception manuelle. Les expériences sur neuf benchmarks démontrent que SpatialEvo atteint le score moyen le plus élevé aux échelles 3B et 7B, avec des gains constants sur les benchmarks de raisonnement spatial et sans dégradation sur la compréhension visuelle générale.
English
Spatial reasoning over three-dimensional scenes is a core capability for embodied intelligence, yet continuous model improvement remains bottlenecked by the cost of geometric annotation. The self-evolving paradigm offers a promising path, but its reliance on model consensus to construct pseudo-labels causes training to reinforce rather than correct the model's own geometric errors. We identify a property unique to 3D spatial reasoning that circumvents this limitation: ground truth is a deterministic consequence of the underlying geometry, computable exactly from point clouds and camera poses without any model involvement. Building on this insight, we present SpatialEvo, a self-evolving framework for 3D spatial reasoning, centered on the Deterministic Geometric Environment (DGE). The DGE formalizes 16 spatial reasoning task categories under explicit geometric validation rules and converts unannotated 3D scenes into zero-noise interactive oracles, replacing model consensus with objective physical feedback. A single shared-parameter policy co-evolves across questioner and solver roles under DGE constraints: the questioner generates physically valid spatial questions grounded in scene observations, while the solver derives precise answers against DGE-verified ground truth. A task-adaptive scheduler endogenously concentrates training on the model's weakest categories, producing a dynamic curriculum without manual design. Experiments across nine benchmarks demonstrate that SpatialEvo achieves the highest average score at both 3B and 7B scales, with consistent gains on spatial reasoning benchmarks and no degradation on general visual understanding.
PDF600April 17, 2026