RemoteZero: Georuimtelijk Redeneren zonder Menselijke Annotaties

Samenvatting

Georuimtelijk redeneren vereist dat modellen complexe ruimtelijke semantiek en gebruikersintentie vertalen naar precieze doelposities voor aardobservatie. Recente vooruitgang heeft het redeneerpad bevrijd van handmatige curatie, waardoor modellen hun eigen inferentieketens kunnen genereren. Toch blijft er een laatste afhankelijkheid bestaan: ze worden nog steeds gesuperviseerd door door mensen geannoteerde grondwaarheid-coördinaten. Hierdoor is het redeneerproces autonoom, maar niet het ruimtelijke eindpunt, wat echte zelf-evolutie op overvloedige ongelabelde remote sensing-data verhindert. Om deze bottleneck te doorbreken, introduceren we RemoteZero, een kader voor georuimtelijk redeneren zonder balk-supervisie. RemoteZero is gemotiveerd door een eenvoudige asymmetrie: een MLLM is typisch beter in het verifiëren of een regio aan een query voldoet dan in het direct genereren van precieze coördinaten. Door gebruik te maken van dit sterkere onderscheidend vermogen vervangt RemoteZero geometrische supervisie door intrinsieke semantische verificatie en maakt het GRPO-training mogelijk zonder balkannotaties. Het resulterende kader ondersteunt verder iteratieve zelf-evolutie, waardoor het model kan verbeteren vanuit ongelabelde remote sensing-beelden via zijn eigen verificatiesignaal. Experimenten tonen aan dat RemoteZero competitieve prestaties bereikt ten opzichte van sterke gesuperviseerde methoden, wat het potentieel aantoont van zelfverificerende training voor lokalisatie bij georuimtelijk redeneren.

English

Geospatial reasoning requires models to resolve complex spatial semantics and user intent into precise target locations for Earth observation. Recent progress has liberated the reasoning path from manual curation, allowing models to generate their own inference chains. Yet a final dependency remains: they are still supervised by human-annotated ground-truth coordinates. This leaves the reasoning process autonomous, but not its spatial endpoint, and prevents true self-evolution on abundant unlabeled remote sensing data. To break this bottleneck, we introduce RemoteZero, a box-supervision-free framework for geospatial reasoning. RemoteZero is motivated by a simple asymmetry: an MLLM is typically better at verifying whether a region satisfies a query than at directly generating precise coordinates. Leveraging this stronger discriminative ability, RemoteZero replaces geometric supervision with intrinsic semantic verification and enables GRPO training without box annotations. The resulting framework further supports iterative self-evolution, allowing the model to improve from unlabeled remote sensing imagery through its own verification signal. Experiments show that RemoteZero achieves competitive performance against strong supervised methods, demonstrating the potential of self-verifying training for geospatial reasoning localization.

RemoteZero: Georuimtelijk Redeneren zonder Menselijke Annotaties

RemoteZero: Geospatial Reasoning with Zero Human Annotations

Samenvatting

Support