RemoteZero : Raisonnement géospatial sans annotations humaines

Résumé

Le raisonnement géospatial exige que les modèles résolvent des sémantiques spatiales complexes et l'intention de l'utilisateur en des localisations précises pour l'observation de la Terre. Les progrès récents ont libéré le chemin de raisonnement de la curation manuelle, permettant aux modèles de générer leurs propres chaînes d'inférence. Pourtant, une dépendance finale persiste : ils restent supervisés par des coordonnées de référence annotées par des humains. Cela rend le processus de raisonnement autonome, mais pas son point final spatial, et empêche une véritable auto-évolution sur les abondantes données de télédétection non étiquetées. Pour briser ce goulot d'étranglement, nous présentons RemoteZero, un cadre exempt de supervision par boîtes pour le raisonnement géospatial. RemoteZero est motivé par une asymétrie simple : un MLLM est généralement meilleur pour vérifier si une région satisfait une requête que pour générer directement des coordonnées précises. Tirant parti de cette capacité discriminative plus forte, RemoteZero remplace la supervision géométrique par une vérification sémantique intrinsèque et permet l'entraînement GRPO sans annotations de boîtes. Le cadre résultant prend en outre en charge l'auto-évolution itérative, permettant au modèle de s'améliorer à partir d'images de télédétection non étiquetées grâce à son propre signal de vérification. Les expériences montrent que RemoteZero atteint des performances compétitives par rapport aux méthodes supervisées robustes, démontrant le potentiel de l'entraînement par auto-vérification pour la localisation en raisonnement géospatial.

English

Geospatial reasoning requires models to resolve complex spatial semantics and user intent into precise target locations for Earth observation. Recent progress has liberated the reasoning path from manual curation, allowing models to generate their own inference chains. Yet a final dependency remains: they are still supervised by human-annotated ground-truth coordinates. This leaves the reasoning process autonomous, but not its spatial endpoint, and prevents true self-evolution on abundant unlabeled remote sensing data. To break this bottleneck, we introduce RemoteZero, a box-supervision-free framework for geospatial reasoning. RemoteZero is motivated by a simple asymmetry: an MLLM is typically better at verifying whether a region satisfies a query than at directly generating precise coordinates. Leveraging this stronger discriminative ability, RemoteZero replaces geometric supervision with intrinsic semantic verification and enables GRPO training without box annotations. The resulting framework further supports iterative self-evolution, allowing the model to improve from unlabeled remote sensing imagery through its own verification signal. Experiments show that RemoteZero achieves competitive performance against strong supervised methods, demonstrating the potential of self-verifying training for geospatial reasoning localization.

RemoteZero : Raisonnement géospatial sans annotations humaines

RemoteZero: Geospatial Reasoning with Zero Human Annotations

Résumé

Support