ChatPaper.aiChatPaper

SpatialEvo: 결정론적 기하학적 환경을 통한 자기 진화적 공간 지능

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

April 15, 2026
저자: Dinging Li, Yingxiu Zhao, Xinrui Cheng, Kangheng Lin, Hongbo Peng, Hongxing Li, Zixuan Wang, Yuhong Dai, Haodong Li, Jia Wang, Yukang Shi, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI

초록

3차원 장면에 대한 공간 추론은 구현형 인텔리전스의 핵심 능력이지만, 지속적인 모델 개선은 기하학적 주석 비용으로 인해 병목 현상을 겪고 있습니다. 자기 진화 패러다임은 유망한 방향을 제시하지만, 모델 간 합의를 통해 의사 레이블을 구성하는 방식은 훈련 과정에서 모델의 기하학적 오류를 수정하기보다 강화하는 문제가 있습니다. 본 연구는 이러한 한계를 극복할 수 있는 3D 공간 추론만의 독특한 특성을 확인했습니다. 바로 실측 정답이 기본 기하학의 결정론적 결과물로서, 모델 개입 없이 점군과 카메라 포즈로부터 정확하게 계산 가능하다는 점입니다. 이러한 통찰을 바탕으로 우리는 Deterministic Geometric Environment(DGE)를 중심으로 한 3D 공간 추론용 자기 진화 프레임워크인 SpatialEvo를 제시합니다. DGE는 16가지 공간 추론 작업 범주를 명시적인 기하학적 검증 규칙 하에 체계화하고, 주석이 달리지 않은 3D 장면을 잡음이 전혀 없는 상호작용 오라클로 변환하여 모델 합의를 객관적인 물리적 피드백으로 대체합니다. 단일 공유 매개변수 정책이 DGE 제약 하에 질문자와 해결자 역할을 동시에 수행하며 공진화합니다. 질문자는 장면 관측에 기반하여 물리적으로 타당한 공간 질문을 생성하고, 해결자는 DGE가 검증한 실측 정답을 기준으로 정확한 답을 도출합니다. 작업 적응형 스케줄러는 모델의 가장 약한 범주에 훈련을 내생적으로 집중시켜 수동 설계 없이도 동적 교육 과정을 생성합니다. 9개 벤치마크에 대한 실험 결과, SpatialEvo는 3B 및 7B 규모 모두에서 최고의 평균 점수를 달성했으며, 공간 추론 벤치마크에서 일관된 향상을 보였고 일반적인 시각 이해 작업에서는 성능 저하가 없었습니다.
English
Spatial reasoning over three-dimensional scenes is a core capability for embodied intelligence, yet continuous model improvement remains bottlenecked by the cost of geometric annotation. The self-evolving paradigm offers a promising path, but its reliance on model consensus to construct pseudo-labels causes training to reinforce rather than correct the model's own geometric errors. We identify a property unique to 3D spatial reasoning that circumvents this limitation: ground truth is a deterministic consequence of the underlying geometry, computable exactly from point clouds and camera poses without any model involvement. Building on this insight, we present SpatialEvo, a self-evolving framework for 3D spatial reasoning, centered on the Deterministic Geometric Environment (DGE). The DGE formalizes 16 spatial reasoning task categories under explicit geometric validation rules and converts unannotated 3D scenes into zero-noise interactive oracles, replacing model consensus with objective physical feedback. A single shared-parameter policy co-evolves across questioner and solver roles under DGE constraints: the questioner generates physically valid spatial questions grounded in scene observations, while the solver derives precise answers against DGE-verified ground truth. A task-adaptive scheduler endogenously concentrates training on the model's weakest categories, producing a dynamic curriculum without manual design. Experiments across nine benchmarks demonstrate that SpatialEvo achieves the highest average score at both 3B and 7B scales, with consistent gains on spatial reasoning benchmarks and no degradation on general visual understanding.
PDF600April 17, 2026