SpatialEvo: Inteligencia Espacial Auto-Evolutiva mediante Entornos Geométricos Deterministas

Resumen

El razonamiento espacial sobre escenas tridimensionales es una capacidad fundamental para la inteligencia embodida, sin embargo, la mejora continua de los modelos sigue estando limitada por el costo de la anotación geométrica. El paradigma de auto-evolución ofrece un camino prometedor, pero su dependencia del consenso del modelo para construir pseudo-etiquetas hace que el entrenamiento refuerce en lugar de corregir los errores geométricos propios del modelo. Identificamos una propiedad única del razonamiento espacial 3D que sortea esta limitación: la verdad de base es una consecuencia determinista de la geometría subyacente, calculable exactamente a partir de nubes de puntos y poses de cámara sin ninguna intervención del modelo. Basándonos en esta idea, presentamos SpatialEvo, un marco de auto-evolución para el razonamiento espacial 3D, centrado en el Entorno Geométrico Determinista (DGE). El DGE formaliza 16 categorías de tareas de razonamiento espacial bajo reglas explícitas de validación geométrica y convierte escenas 3D no anotadas en oráculos interactivos de ruido cero, reemplazando el consenso del modelo con retroalimentación física objetiva. Una única política de parámetros compartidos co-evoluciona a través de los roles de interrogador y resolvedor bajo las restricciones del DGE: el interrogador genera preguntas espaciales físicamente válidas basadas en observaciones de la escena, mientras que el resolvedor deduce respuestas precisas contrastadas con la verdad de base verificada por el DGE. Un planificador adaptativo a la tarea concentra endógenamente el entrenamiento en las categorías más débiles del modelo, produciendo un currículo dinámico sin diseño manual. Los experimentos en nueve benchmarks demuestran que SpatialEvo logra el puntaje promedio más alto tanto a escalas de 3B como de 7B, con ganancias consistentes en benchmarks de razonamiento espacial y sin degradación en la comprensión visual general.

English

Spatial reasoning over three-dimensional scenes is a core capability for embodied intelligence, yet continuous model improvement remains bottlenecked by the cost of geometric annotation. The self-evolving paradigm offers a promising path, but its reliance on model consensus to construct pseudo-labels causes training to reinforce rather than correct the model's own geometric errors. We identify a property unique to 3D spatial reasoning that circumvents this limitation: ground truth is a deterministic consequence of the underlying geometry, computable exactly from point clouds and camera poses without any model involvement. Building on this insight, we present SpatialEvo, a self-evolving framework for 3D spatial reasoning, centered on the Deterministic Geometric Environment (DGE). The DGE formalizes 16 spatial reasoning task categories under explicit geometric validation rules and converts unannotated 3D scenes into zero-noise interactive oracles, replacing model consensus with objective physical feedback. A single shared-parameter policy co-evolves across questioner and solver roles under DGE constraints: the questioner generates physically valid spatial questions grounded in scene observations, while the solver derives precise answers against DGE-verified ground truth. A task-adaptive scheduler endogenously concentrates training on the model's weakest categories, producing a dynamic curriculum without manual design. Experiments across nine benchmarks demonstrate that SpatialEvo achieves the highest average score at both 3B and 7B scales, with consistent gains on spatial reasoning benchmarks and no degradation on general visual understanding.

SpatialEvo: Inteligencia Espacial Auto-Evolutiva mediante Entornos Geométricos Deterministas

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

Resumen

Support