RemoteZero: Геопространственные рассуждения без аннотаций человека

Аннотация

Пространственное рассуждение требует от моделей разрешения сложной пространственной семантики и пользовательских интенций в точные целевые местоположения для наблюдения Земли. Недавний прогресс освободил путь рассуждения от ручной курации, позволив моделям генерировать собственные цепочки выводов. Однако сохраняется последняя зависимость: они по-прежнему обучаются с учителем на основе размеченных человеком эталонных координат. Это делает процесс рассуждения автономным, но не его пространственный результат, и препятствует подлинной самоэволюции на основе обильных немаркированных данных дистанционного зондирования. Чтобы устранить это узкое место, мы представляем RemoteZero — свободную от боксинг-супервизии структуру для геопространственного рассуждения. RemoteZero мотивирована простой асимметрией: мультимодальные большие языковые модели, как правило, лучше проверяют, удовлетворяет ли регион запросу, чем непосредственно генерируют точные координаты. Используя эту усиленную дискриминативную способность, RemoteZero заменяет геометрический надзор внутренней семантической верификацией и позволяет обучать модели геопространственного рассуждения без аннотаций ограничивающих рамок. Получившаяся структура дополнительно поддерживает итеративную самоэволюцию, позволяя модели улучшаться на основе немаркированных изображений дистанционного зондирования через собственный верификационный сигнал. Эксперименты показывают, что RemoteZero достигает конкурентоспособной производительности по сравнению с сильными методами обучения с учителем, демонстрируя потенциал самопроверяющего обучения для локализации в геопространственном рассуждении.

English

Geospatial reasoning requires models to resolve complex spatial semantics and user intent into precise target locations for Earth observation. Recent progress has liberated the reasoning path from manual curation, allowing models to generate their own inference chains. Yet a final dependency remains: they are still supervised by human-annotated ground-truth coordinates. This leaves the reasoning process autonomous, but not its spatial endpoint, and prevents true self-evolution on abundant unlabeled remote sensing data. To break this bottleneck, we introduce RemoteZero, a box-supervision-free framework for geospatial reasoning. RemoteZero is motivated by a simple asymmetry: an MLLM is typically better at verifying whether a region satisfies a query than at directly generating precise coordinates. Leveraging this stronger discriminative ability, RemoteZero replaces geometric supervision with intrinsic semantic verification and enables GRPO training without box annotations. The resulting framework further supports iterative self-evolution, allowing the model to improve from unlabeled remote sensing imagery through its own verification signal. Experiments show that RemoteZero achieves competitive performance against strong supervised methods, demonstrating the potential of self-verifying training for geospatial reasoning localization.

RemoteZero: Геопространственные рассуждения без аннотаций человека

RemoteZero: Geospatial Reasoning with Zero Human Annotations

Аннотация

Support