GeoAgent: Leren om overal te lokaliseren met versterkte geografische kenmerken

Samenvatting

Dit artikel introduceert GeoAgent, een model dat in staat is om op een menselijke manier te redeneren en fijnmazige adresconclusies af te leiden. Eerdere op reinforcement learning (RL) gebaseerde methoden hebben doorbraken bereikt in prestaties en interpreteerbaarheid, maar roepen toch bezwaren op vanwege hun afhankelijkheid van door AI gegenereerde chain-of-thought (CoT)-gegevens en trainingsstrategieën, die in conflict staan met geografische kenmerken. Om deze problemen aan te pakken, introduceren we eerst GeoSeek, een nieuwe geolocatiedataset bestaande uit CoT-gegevens die zijn geannoteerd door geografie-experts en professionele spelers. Verder verkennen we grondig de inherente kenmerken van geografische taken en stellen we een geo-gelijkvormigheidsbeloning en een consistentiebeloning voor, beoordeeld door een consistentie-agent, om de training te ondersteunen. Dit moedigt het model aan om vanuit een geografisch perspectief naar correcte antwoorden te convergeren, terwijl de integriteit en consistentie van het redeneerproces worden gewaarborgd. Experimentele resultaten tonen aan dat GeoAgent de prestaties overtreft van bestaande methoden en een reeks algemene VLLM's (Very Large Language Models) op meerdere granulariteiten, terwijl het redeneringen genereert die nauw aansluiten bij het menselijk denken.

English

This paper presents GeoAgent, a model capable of reasoning closely with humans and deriving fine-grained address conclusions. Previous RL-based methods have achieved breakthroughs in performance and interpretability but still remain concerns because of their reliance on AI-generated chain-of-thought (CoT) data and training strategies, which conflict with geographic characteristics. To address these issues, we first introduce GeoSeek, a new geolocation dataset comprising CoT data annotated by geographic experts and professional players. We further thoroughly explore the inherent characteristics of geographic tasks and propose a geo-similarity reward and a consistency reward assessed by a consistency agent to assist training. This encourages the model to converge towards correct answers from a geographic perspective while ensuring the integrity and consistency of its reasoning process. Experimental results show that GeoAgent outperforms existing methods and a series of general VLLMs across multiple grains, while generating reasoning that closely aligns with humans.

GeoAgent: Leren om overal te lokaliseren met versterkte geografische kenmerken

GeoAgent: Learning to Geolocate Everywhere with Reinforced Geographic Characteristics

Samenvatting

Support