SpatialEvo: Intelligenza Spaziale Auto-Evolvente tramite Ambienti Geometrici Deterministici

Abstract

Il ragionamento spaziale su scene tridimensionali è una capacità fondamentale per l'intelligenza embodied, ma il miglioramento continuo dei modelli rimane limitato dal costo dell'annotazione geometrica. Il paradigma dell'auto-evoluzione offre una strada promettente, ma la sua dipendenza dal consenso del modello per costruire pseudo-etichette porta l'addestramento a rafforzare piuttosto che correggere gli errori geometrici del modello stesso. Identifichiamo una proprietà unica del ragionamento spaziale 3D che supera questa limitazione: la ground truth è una conseguenza deterministica della geometria sottostante, calcolabile esattamente da nuvole di punti e pose della telecamera senza alcun intervento del modello. Basandoci su questa intuizione, presentiamo SpatialEvo, un framework auto-evolutivo per il ragionamento spaziale 3D, incentrato sull'Ambiente Geometrico Deterministico (DGE). Il DGE formalizza 16 categorie di compiti di ragionamento spaziale sotto regole esplicite di validazione geometrica e converte scene 3D non annotate in oracoli interattivi a rumore zero, sostituendo il consenso del modello con feedback fisico oggettivo. Una singola politica a parametri condivisi co-evolve simultaneamente nei ruoli di interrogatore e risolutore sotto i vincoli del DGE: l'interrogatore genera domande spaziali fisicamente valide basate sulle osservazioni della scena, mentre il risolutore ricava risposte precise rispetto alla ground truth verificata dal DGE. Uno schedulatore adattativo ai compiti concentra endogenamente l'addestramento sulle categorie più deboli del modello, producendo un curriculum dinamico senza progettazione manuale. Esperimenti su nove benchmark dimostrano che SpatialEvo raggiunge il punteggio medio più elevato sia a scala 3B che 7B, con guadagni consistenti sui benchmark di ragionamento spaziale e nessuna degradazione nella comprensione visiva generale.

English

Spatial reasoning over three-dimensional scenes is a core capability for embodied intelligence, yet continuous model improvement remains bottlenecked by the cost of geometric annotation. The self-evolving paradigm offers a promising path, but its reliance on model consensus to construct pseudo-labels causes training to reinforce rather than correct the model's own geometric errors. We identify a property unique to 3D spatial reasoning that circumvents this limitation: ground truth is a deterministic consequence of the underlying geometry, computable exactly from point clouds and camera poses without any model involvement. Building on this insight, we present SpatialEvo, a self-evolving framework for 3D spatial reasoning, centered on the Deterministic Geometric Environment (DGE). The DGE formalizes 16 spatial reasoning task categories under explicit geometric validation rules and converts unannotated 3D scenes into zero-noise interactive oracles, replacing model consensus with objective physical feedback. A single shared-parameter policy co-evolves across questioner and solver roles under DGE constraints: the questioner generates physically valid spatial questions grounded in scene observations, while the solver derives precise answers against DGE-verified ground truth. A task-adaptive scheduler endogenously concentrates training on the model's weakest categories, producing a dynamic curriculum without manual design. Experiments across nine benchmarks demonstrate that SpatialEvo achieves the highest average score at both 3B and 7B scales, with consistent gains on spatial reasoning benchmarks and no degradation on general visual understanding.

SpatialEvo: Intelligenza Spaziale Auto-Evolvente tramite Ambienti Geometrici Deterministici

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

Abstract

Support