GeoAgent: Imparare a Georeferenziare Ovunque con Caratteristiche Geografiche Rinforzate

Abstract

Questo articolo presenta GeoAgent, un modello in grado di ragionare in modo simile agli esseri umani e derivare conclusioni sugli indirizzi a grana fine. I metodi precedenti basati su RL hanno ottenuto progressi significativi in termini di prestazioni e interpretabilità, ma permangono preoccupazioni a causa della loro dipendenza da dati a catena del pensiero (CoT) generati dall'IA e da strategie di addestramento in conflitto con le caratteristiche geografiche. Per affrontare questi problemi, introduciamo innanzitutto GeoSeek, un nuovo dataset di geolocalizzazione comprendente dati CoT annotati da esperti geografici e giocatori professionisti. Esploriamo inoltre approfonditamente le caratteristiche intrinseche dei compiti geografici e proponiamo una ricompensa per la similarità geografica e una ricompensa per la coerenza valutata da un agente di consistenza per supportare l'addestramento. Ciò incoraggia il modello a convergere verso risposte corrette da una prospettiva geografica, garantendo al contempo l'integrità e la coerenza del suo processo logico. I risultati sperimentali dimostrano che GeoAgent supera i metodi esistenti e una serie di VLLM generici su multiple granularità, generando al contempo ragionamenti strettamente allineati con il pensiero umano.

English

This paper presents GeoAgent, a model capable of reasoning closely with humans and deriving fine-grained address conclusions. Previous RL-based methods have achieved breakthroughs in performance and interpretability but still remain concerns because of their reliance on AI-generated chain-of-thought (CoT) data and training strategies, which conflict with geographic characteristics. To address these issues, we first introduce GeoSeek, a new geolocation dataset comprising CoT data annotated by geographic experts and professional players. We further thoroughly explore the inherent characteristics of geographic tasks and propose a geo-similarity reward and a consistency reward assessed by a consistency agent to assist training. This encourages the model to converge towards correct answers from a geographic perspective while ensuring the integrity and consistency of its reasoning process. Experimental results show that GeoAgent outperforms existing methods and a series of general VLLMs across multiple grains, while generating reasoning that closely aligns with humans.

GeoAgent: Imparare a Georeferenziare Ovunque con Caratteristiche Geografiche Rinforzate

GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics

Abstract

Support