SpatialEvo: Zelf-evoluerende ruimtelijke intelligentie via deterministische geometrische omgevingen

Samenvatting

Ruimtelijk redeneren over driedimensionale scènes is een kernvaardigheid voor belichaamde intelligentie, maar continue modelverbetering wordt nog steeds beperkt door de kosten van geometrische annotatie. Het zelf-evoluerende paradigma biedt een veelbelovend pad, maar de afhankelijkheid van modelconsensus om pseudo-labels te construeren, zorgt ervoor dat training de eigen geometrische fouten van het model versterkt in plaats van corrigeert. Wij identificeren een unieke eigenschap van 3D-ruimtelijk redeneren die deze beperking omzeilt: de grondwaarheid is een deterministisch gevolg van de onderliggende geometrie en kan exact worden berekend uit puntenwolken en cameraposities zonder enige modelbetrokkenheid. Voortbouwend op dit inzicht presenteren we SpatialEvo, een zelf-evoluerend kader voor 3D-ruimtelijk redeneren, gecentreerd rond de Deterministische Geometrische Omgeving (DGE). De DGE formaliseert 16 categorieën van ruimtelijke redeneertaken onder expliciete geometrische validatieregels en zet niet-geannoteerde 3D-scènes om in interactieve orakels zonder ruis, waarbij modelconsensus wordt vervangen door objectieve fysieke feedback. Een enkel gedeeld-parameterbeleid co-evolueert over vraagsteller- en oplosserrollen heen binnen DGE-beperkingen: de vraagsteller genereert fysiek geldige ruimtelijke vragen gebaseerd op scènewaarnemingen, terwijl de oplosser precieze antwoorden afleidt tegenover door DGE-geverifieerde grondwaarheid. Een taakadaptieve planner concentreert de training endogeen op de zwakste categorieën van het model, wat een dynamisch curriculum oplevert zonder handmatig ontwerp. Experimenten over negen benchmarks tonen aan dat SpatialEvo de hoogste gemiddelde score behaalt op zowel 3B- als 7B-schaal, met consistente winst op ruimtelijke redeneerbenchmarks en geen achteruitgang op algemeen visueel begrip.

English

Spatial reasoning over three-dimensional scenes is a core capability for embodied intelligence, yet continuous model improvement remains bottlenecked by the cost of geometric annotation. The self-evolving paradigm offers a promising path, but its reliance on model consensus to construct pseudo-labels causes training to reinforce rather than correct the model's own geometric errors. We identify a property unique to 3D spatial reasoning that circumvents this limitation: ground truth is a deterministic consequence of the underlying geometry, computable exactly from point clouds and camera poses without any model involvement. Building on this insight, we present SpatialEvo, a self-evolving framework for 3D spatial reasoning, centered on the Deterministic Geometric Environment (DGE). The DGE formalizes 16 spatial reasoning task categories under explicit geometric validation rules and converts unannotated 3D scenes into zero-noise interactive oracles, replacing model consensus with objective physical feedback. A single shared-parameter policy co-evolves across questioner and solver roles under DGE constraints: the questioner generates physically valid spatial questions grounded in scene observations, while the solver derives precise answers against DGE-verified ground truth. A task-adaptive scheduler endogenously concentrates training on the model's weakest categories, producing a dynamic curriculum without manual design. Experiments across nine benchmarks demonstrate that SpatialEvo achieves the highest average score at both 3B and 7B scales, with consistent gains on spatial reasoning benchmarks and no degradation on general visual understanding.

SpatialEvo: Zelf-evoluerende ruimtelijke intelligentie via deterministische geometrische omgevingen

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

Samenvatting

Support