SpatialEvo: Inteligência Espacial Autoevolutiva por Meio de Ambientes Geométricos Determinísticos

Resumo

O raciocínio espacial sobre cenas tridimensionais é uma capacidade fundamental para a inteligência incorporada, no entanto, a melhoria contínua dos modelos continua limitada pelo custo da anotação geométrica. O paradigma da auto-evolução oferece um caminho promissor, mas a sua dependência do consenso do modelo para construir rótulos pseudo-verdadeiros faz com que o treino reforce, em vez de corrigir, os próprios erros geométricos do modelo. Identificamos uma propriedade única do raciocínio espacial 3D que contorna esta limitação: a verdade fundamental (ground truth) é uma consequência determinística da geometria subjacente, computável exatamente a partir de nuvens de pontos e poses de câmaras, sem qualquer envolvimento do modelo. Com base nesta perspetiva, apresentamos o SpatialEvo, um quadro de auto-evolução para o raciocínio espacial 3D, centrado no Ambiente Geométrico Determinístico (DGE). O DGE formaliza 16 categorias de tarefas de raciocínio espacial sob regras explícitas de validação geométrica e converte cenas 3D não anotadas em oráculos interativos de ruído zero, substituindo o consenso do modelo por feedback físico objetivo. Uma única política de parâmetros partilhados co-evolui entre os papéis de questionador e resolvedor sob as restrições do DGE: o questionador gera questões espaciais fisicamente válidas baseadas em observações da cena, enquanto o resolvedor deriva respostas precisas contra a verdade fundamental verificada pelo DGE. Um programador adaptativo de tarefas concentra endogenamente o treino nas categorias mais fracas do modelo, produzindo um currículo dinâmico sem desenho manual. Experiências em nove benchmarks demonstram que o SpatialEvo alcança a pontuação média mais alta tanto em escalas de 3B como de 7B, com ganhos consistentes em benchmarks de raciocínio espacial e sem degradação na compreensão visual geral.

English

Spatial reasoning over three-dimensional scenes is a core capability for embodied intelligence, yet continuous model improvement remains bottlenecked by the cost of geometric annotation. The self-evolving paradigm offers a promising path, but its reliance on model consensus to construct pseudo-labels causes training to reinforce rather than correct the model's own geometric errors. We identify a property unique to 3D spatial reasoning that circumvents this limitation: ground truth is a deterministic consequence of the underlying geometry, computable exactly from point clouds and camera poses without any model involvement. Building on this insight, we present SpatialEvo, a self-evolving framework for 3D spatial reasoning, centered on the Deterministic Geometric Environment (DGE). The DGE formalizes 16 spatial reasoning task categories under explicit geometric validation rules and converts unannotated 3D scenes into zero-noise interactive oracles, replacing model consensus with objective physical feedback. A single shared-parameter policy co-evolves across questioner and solver roles under DGE constraints: the questioner generates physically valid spatial questions grounded in scene observations, while the solver derives precise answers against DGE-verified ground truth. A task-adaptive scheduler endogenously concentrates training on the model's weakest categories, producing a dynamic curriculum without manual design. Experiments across nine benchmarks demonstrate that SpatialEvo achieves the highest average score at both 3B and 7B scales, with consistent gains on spatial reasoning benchmarks and no degradation on general visual understanding.

SpatialEvo: Inteligência Espacial Autoevolutiva por Meio de Ambientes Geométricos Determinísticos

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

Resumo

Support