SpatialEvo: Саморазвивающийся пространственный интеллект через детерминированные геометрические среды
SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments
April 15, 2026
Авторы: Dinging Li, Yingxiu Zhao, Xinrui Cheng, Kangheng Lin, Hongbo Peng, Hongxing Li, Zixuan Wang, Yuhong Dai, Haodong Li, Jia Wang, Yukang Shi, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Аннотация
Пространственное мышление в трехмерных сценах является ключевой способностью для воплощенного интеллекта, однако постоянное улучшение моделей остается ограниченным дороговизной геометрической разметки. Парадигма саморазвития предлагает перспективный путь, но ее зависимость от консенсуса моделей для построения псевдоразметки приводит к тому, что обучение закрепляет, а не исправляет собственные геометрические ошибки модели. Мы выявляем уникальное свойство 3D-пространственного мышления, которое позволяет обойти это ограничение: истинные значения являются детерминированным следствием лежащей в основе геометрии и могут быть точно вычислены из облаков точек и поз камер без какого-либо участия модели. Основываясь на этом инсайте, мы представляем SpatialEvo — саморазвивающуюся систему для 3D-пространственного мышления, построенную вокруг Детерминированного Геометрического Окружения (DGE). DGE формализует 16 категорий задач пространственного мышления с помощью явных правил геометрической валидации и преобразует неразмеченные 3D-сцены в интерактивные оракулы с нулевым шумом, заменяя консенсус моделей объективной физической обратной связью. Единая политика с общими параметрами совместно эволюционирует в ролях задающего вопросы и решателя в рамках ограничений DGE: задающий генерирует физически корректные пространственные вопросы на основе наблюдений за сценой, а решатель выводит точные ответы против проверенной DGE истинной разметки. Адаптивный планировщик задач эндогенно концентрирует обучение на самых слабых категориях модели, создавая динамическую учебную программу без ручного проектирования. Эксперименты на девяти бенчмарках показывают, что SpatialEvo достигает наивысшего среднего балла как для масштабов 3B, так и 7B, с последовательным улучшением на бенчмарках пространственного мышления и без деградации на задачах общего визуального понимания.
English
Spatial reasoning over three-dimensional scenes is a core capability for embodied intelligence, yet continuous model improvement remains bottlenecked by the cost of geometric annotation. The self-evolving paradigm offers a promising path, but its reliance on model consensus to construct pseudo-labels causes training to reinforce rather than correct the model's own geometric errors. We identify a property unique to 3D spatial reasoning that circumvents this limitation: ground truth is a deterministic consequence of the underlying geometry, computable exactly from point clouds and camera poses without any model involvement. Building on this insight, we present SpatialEvo, a self-evolving framework for 3D spatial reasoning, centered on the Deterministic Geometric Environment (DGE). The DGE formalizes 16 spatial reasoning task categories under explicit geometric validation rules and converts unannotated 3D scenes into zero-noise interactive oracles, replacing model consensus with objective physical feedback. A single shared-parameter policy co-evolves across questioner and solver roles under DGE constraints: the questioner generates physically valid spatial questions grounded in scene observations, while the solver derives precise answers against DGE-verified ground truth. A task-adaptive scheduler endogenously concentrates training on the model's weakest categories, producing a dynamic curriculum without manual design. Experiments across nine benchmarks demonstrate that SpatialEvo achieves the highest average score at both 3B and 7B scales, with consistent gains on spatial reasoning benchmarks and no degradation on general visual understanding.