RemoteZero: Razonamiento Geoespacial sin Anotaciones Humanas

Resumen

El razonamiento geoespacial requiere que los modelos resuelvan semánticas espaciales complejas y la intención del usuario en ubicaciones objetivo precisas para la observación terrestre. Los avances recientes han liberado la ruta de razonamiento de la curación manual, permitiendo que los modelos generen sus propias cadenas de inferencia. Sin embargo, persiste una dependencia final: aún están supervisados por coordenadas de referencia anotadas por humanos. Esto deja el proceso de razonamiento autónomo, pero no su punto final espacial, e impide una verdadera auto-evolución con los abundantes datos de teledetección no etiquetados. Para superar este cuello de botella, presentamos RemoteZero, un marco de razonamiento geoespacial libre de supervisión por cuadros delimitadores. RemoteZero se motiva por una asimetría simple: un MLLM generalmente es mejor verificando si una región satisface una consulta que generando directamente coordenadas precisas. Aprovechando esta capacidad discriminativa más fuerte, RemoteZero reemplaza la supervisión geométrica con verificación semántica intrínseca y permite el entrenamiento GRPO sin anotaciones de cuadros. El marco resultante además admite una auto-evolución iterativa, permitiendo que el modelo mejore a partir de imágenes de teledetección no etiquetadas mediante su propia señal de verificación. Los experimentos muestran que RemoteZero logra un rendimiento competitivo frente a métodos supervisados sólidos, demostrando el potencial del entrenamiento auto-verificativo para la localización en el razonamiento geoespacial.

English

Geospatial reasoning requires models to resolve complex spatial semantics and user intent into precise target locations for Earth observation. Recent progress has liberated the reasoning path from manual curation, allowing models to generate their own inference chains. Yet a final dependency remains: they are still supervised by human-annotated ground-truth coordinates. This leaves the reasoning process autonomous, but not its spatial endpoint, and prevents true self-evolution on abundant unlabeled remote sensing data. To break this bottleneck, we introduce RemoteZero, a box-supervision-free framework for geospatial reasoning. RemoteZero is motivated by a simple asymmetry: an MLLM is typically better at verifying whether a region satisfies a query than at directly generating precise coordinates. Leveraging this stronger discriminative ability, RemoteZero replaces geometric supervision with intrinsic semantic verification and enables GRPO training without box annotations. The resulting framework further supports iterative self-evolution, allowing the model to improve from unlabeled remote sensing imagery through its own verification signal. Experiments show that RemoteZero achieves competitive performance against strong supervised methods, demonstrating the potential of self-verifying training for geospatial reasoning localization.

RemoteZero: Razonamiento Geoespacial sin Anotaciones Humanas

RemoteZero: Geospatial Reasoning with Zero Human Annotations

Resumen

Support