RemoteZero: Räumliche Analyse ohne menschliche Annotationen

Zusammenfassung

Georäumliches Reasoning erfordert von Modellen, komplexe räumliche Semantik und Nutzerabsicht in präzise Zielkoordinaten für die Erdbeobachtung zu übersetzen. Jüngste Fortschritte haben den Reasoning-Pfad von manueller Kuratierung befreit, sodass Modelle ihre eigenen Inferenzketten generieren können. Eine letzte Abhängigkeit bleibt jedoch bestehen: Sie werden nach wie vor durch menschlich annotierte Ground-Truth-Koordinaten supervidiert. Dies macht den Reasoning-Prozess autonom, aber nicht seinen räumlichen Endpunkt, und verhindert eine echte Selbstevolution auf der Basis umfangreicher ungelabelter Fernerkundungsdaten. Um diesen Engpass zu überwinden, führen wir RemoteZero ein, ein rahmenbasiertes, aufzeichnungsfreies Framework für georäumliches Reasoning. RemoteZero wird von einer einfachen Asymmetrie motiviert: Ein MLLM ist typischerweise besser darin zu verifizieren, ob eine Region eine Anfrage erfüllt, als direkt präzise Koordinaten zu generieren. Indem es diese stärkere diskriminative Fähigkeit nutzt, ersetzt RemoteZero die geometrische Überwachung durch intrinsische semantische Verifikation und ermöglicht GRPO-Training ohne Bounding-Box-Annotationen. Das resultierende Framework unterstützt zudem iterative Selbstevolution, die es dem Modell erlaubt, sich anhand ungelabelter Fernerkundungsbilder durch sein eigenes Verifikationssignal zu verbessern. Experimente zeigen, dass RemoteZero eine wettbewerbsfähige Leistung gegenüber stark supervidierten Methoden erzielt und damit das Potenzial selbstverifizierenden Trainings für die Lokalisierung im georäumlichen Reasoning demonstriert.

English

Geospatial reasoning requires models to resolve complex spatial semantics and user intent into precise target locations for Earth observation. Recent progress has liberated the reasoning path from manual curation, allowing models to generate their own inference chains. Yet a final dependency remains: they are still supervised by human-annotated ground-truth coordinates. This leaves the reasoning process autonomous, but not its spatial endpoint, and prevents true self-evolution on abundant unlabeled remote sensing data. To break this bottleneck, we introduce RemoteZero, a box-supervision-free framework for geospatial reasoning. RemoteZero is motivated by a simple asymmetry: an MLLM is typically better at verifying whether a region satisfies a query than at directly generating precise coordinates. Leveraging this stronger discriminative ability, RemoteZero replaces geometric supervision with intrinsic semantic verification and enables GRPO training without box annotations. The resulting framework further supports iterative self-evolution, allowing the model to improve from unlabeled remote sensing imagery through its own verification signal. Experiments show that RemoteZero achieves competitive performance against strong supervised methods, demonstrating the potential of self-verifying training for geospatial reasoning localization.

RemoteZero: Räumliche Analyse ohne menschliche Annotationen

RemoteZero: Geospatial Reasoning with Zero Human Annotations

Zusammenfassung

Support