SpatialEvo:決定論的幾何環境による自己進化的空間知能
SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments
April 15, 2026
著者: Dinging Li, Yingxiu Zhao, Xinrui Cheng, Kangheng Lin, Hongbo Peng, Hongxing Li, Zixuan Wang, Yuhong Dai, Haodong Li, Jia Wang, Yukang Shi, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
要旨
3次元シーンに対する空間推論は、具象化AIの核心能力であるが、継続的なモデル改善は幾何学的アノテーションのコストによってボトルネックとなっている。自己進化パラダイムは有望な道筋を示すが、擬似ラベル構築におけるモデル合意への依存は、訓練がモデル自身の幾何学的誤りを修正するよりも強化してしまうという問題がある。我々は、この限界を回避する3D空間推論に特有の性質を特定した:グランドトゥルースは基礎となる幾何学の決定論的帰結であり、点群とカメラ姿勢からモデルの関与なしに正確に計算可能である。この知見に基づき、我々は決定論的幾何環境(DGE)を中核とした3D空間推論のための自己進化フレームワーク、SpatialEvoを提案する。DGEは16の空間推論タスクカテゴリを明示的な幾何検証規則の下で形式化し、未注釈の3Dシーンをゼロノイズの対話型オラクルに変換し、モデル合意を客観的物理フィードバックで置き換える。単一の共有パラメータポリシーがDGE制約の下で質問者役と解決者役の間で共進化する:質問者はシーン観測に基づく物理的に妥当な空間質問を生成し、解決者はDGE検証済みグランドトゥルースに対して正確な回答を導出する。タスク適応型スケジューラは、モデルの最弱カテゴリに訓練を内生的に集中させ、手動設計なしの動的カリキュラムを生成する。9つのベンチマークによる実験により、SpatialEvoが3Bおよび7Bスケールの両方で最高の平均スコアを達成し、空間推論ベンチマークで一貫した向上を示し、一般的な視覚理解タスクでは性能劣化がないことが実証された。
English
Spatial reasoning over three-dimensional scenes is a core capability for embodied intelligence, yet continuous model improvement remains bottlenecked by the cost of geometric annotation. The self-evolving paradigm offers a promising path, but its reliance on model consensus to construct pseudo-labels causes training to reinforce rather than correct the model's own geometric errors. We identify a property unique to 3D spatial reasoning that circumvents this limitation: ground truth is a deterministic consequence of the underlying geometry, computable exactly from point clouds and camera poses without any model involvement. Building on this insight, we present SpatialEvo, a self-evolving framework for 3D spatial reasoning, centered on the Deterministic Geometric Environment (DGE). The DGE formalizes 16 spatial reasoning task categories under explicit geometric validation rules and converts unannotated 3D scenes into zero-noise interactive oracles, replacing model consensus with objective physical feedback. A single shared-parameter policy co-evolves across questioner and solver roles under DGE constraints: the questioner generates physically valid spatial questions grounded in scene observations, while the solver derives precise answers against DGE-verified ground truth. A task-adaptive scheduler endogenously concentrates training on the model's weakest categories, producing a dynamic curriculum without manual design. Experiments across nine benchmarks demonstrate that SpatialEvo achieves the highest average score at both 3B and 7B scales, with consistent gains on spatial reasoning benchmarks and no degradation on general visual understanding.