SpatialEvo: Selbstentwickelnde räumliche Intelligenz durch deterministische geometrische Umgebungen

Zusammenfassung

Räumliches Schlussfolgern in dreidimensionalen Szenen ist eine Kernfähigkeit für verkörperte Intelligenz, doch kontinuierliche Modellverbesserungen werden durch die Kosten geometrischer Annotationen ausgebremst. Das selbst-evolvierende Paradigma bietet einen vielversprechenden Ansatz, seine Abhängigkeit von Modellkonsens zur Erstellung von Pseudo-Labels führt jedoch dazu, dass das Training die geometrischen Fehler des Modells verstärkt statt korrigiert. Wir identifizieren eine für 3D-räumliches Schlussfolgern einzigartige Eigenschaft, die diese Einschränkung umgeht: Ground Truth ist eine deterministische Konsequenz der zugrundeliegenden Geometrie und exakt aus Punktwolken und Kameraposen ohne Modellbeteiligung berechenbar. Auf dieser Erkenntnis aufbauend präsentieren wir SpatialEvo, einen selbst-evolvierenden Rahmen für 3D-räumliches Schlussfolgern, der auf der Deterministischen Geometrischen Umgebung (DGE) zentriert ist. Die DGE formalisiert 16 Aufgabenkategorien des räumlichen Schlussfolgerns unter expliziten geometrischen Validierungsregeln und wandelt unannotierte 3D-Szenen in interaktive Orakel ohne Rauschen um, die Modellkonsens durch objektive physikalische Rückmeldung ersetzen. Eine einzelne Shared-Parameter-Policy ko-evolviert unter DGE-Beschränkungen in Fragesteller- und Löser-Rollen: Der Fragesteller generiert physikalisch valide räumliche Fragen basierend auf Szenenbeobachtungen, während der Löser präzise Antworten gegen DGE-verifizierte Ground Truth ableitet. Ein aufgabenadaptiver Scheduler konzentriert das Training endogen auf die schwächsten Modellkategorien und erzeugt einen dynamischen Lehrplan ohne manuelles Design. Experimente über neun Benchmarks zeigen, dass SpatialEvo auf 3B- und 7B-Skalen die höchsten Durchschnittswerte erreicht, mit konsistenten Gewinnen auf räumlichen Reasoning-Benchmarks und ohne Verschlechterung beim allgemeinen visuellen Verständnis.

English

Spatial reasoning over three-dimensional scenes is a core capability for embodied intelligence, yet continuous model improvement remains bottlenecked by the cost of geometric annotation. The self-evolving paradigm offers a promising path, but its reliance on model consensus to construct pseudo-labels causes training to reinforce rather than correct the model's own geometric errors. We identify a property unique to 3D spatial reasoning that circumvents this limitation: ground truth is a deterministic consequence of the underlying geometry, computable exactly from point clouds and camera poses without any model involvement. Building on this insight, we present SpatialEvo, a self-evolving framework for 3D spatial reasoning, centered on the Deterministic Geometric Environment (DGE). The DGE formalizes 16 spatial reasoning task categories under explicit geometric validation rules and converts unannotated 3D scenes into zero-noise interactive oracles, replacing model consensus with objective physical feedback. A single shared-parameter policy co-evolves across questioner and solver roles under DGE constraints: the questioner generates physically valid spatial questions grounded in scene observations, while the solver derives precise answers against DGE-verified ground truth. A task-adaptive scheduler endogenously concentrates training on the model's weakest categories, producing a dynamic curriculum without manual design. Experiments across nine benchmarks demonstrate that SpatialEvo achieves the highest average score at both 3B and 7B scales, with consistent gains on spatial reasoning benchmarks and no degradation on general visual understanding.

SpatialEvo: Selbstentwickelnde räumliche Intelligenz durch deterministische geometrische Umgebungen

SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

Zusammenfassung

Support