GeoAgent: Aprendendo a Geolocalizar em Qualquer Lugar com Características Geográficas Reforçadas

Resumo

Este artigo apresenta o GeoAgent, um modelo capaz de raciocinar de forma próxima aos humanos e derivar conclusões de endereços de granularidade fina. Métodos anteriores baseados em Aprendizado por Reforço (RL) alcançaram avanços em desempenho e interpretabilidade, mas permanecem preocupações devido à sua dependência de dados de cadeia de pensamento (CoT) gerados por IA e estratégias de treinamento que conflitam com as características geográficas. Para resolver essas questões, introduzimos primeiro o GeoSeek, um novo conjunto de dados de geolocalização composto por dados CoT anotados por especialistas em geografia e jogadores profissionais. Exploramos ainda minuciosamente as características inerentes das tarefas geográficas e propomos uma recompensa de similaridade geográfica e uma recompensa de consistência avaliada por um agente de consistência para auxiliar no treinamento. Isso incentiva o modelo a convergir para respostas corretas a partir de uma perspectiva geográfica, garantindo ao mesmo tempo a integridade e a consistência de seu processo de raciocínio. Resultados experimentais mostram que o GeoAgent supera os métodos existentes e uma série de Modelos de Linguagem Visual de Grande Escala (VLLMs) gerais em múltiplas granularidades, gerando ao mesmo tempo um raciocínio que se alinha estreitamente com o humano.

English

This paper presents GeoAgent, a model capable of reasoning closely with humans and deriving fine-grained address conclusions. Previous RL-based methods have achieved breakthroughs in performance and interpretability but still remain concerns because of their reliance on AI-generated chain-of-thought (CoT) data and training strategies, which conflict with geographic characteristics. To address these issues, we first introduce GeoSeek, a new geolocation dataset comprising CoT data annotated by geographic experts and professional players. We further thoroughly explore the inherent characteristics of geographic tasks and propose a geo-similarity reward and a consistency reward assessed by a consistency agent to assist training. This encourages the model to converge towards correct answers from a geographic perspective while ensuring the integrity and consistency of its reasoning process. Experimental results show that GeoAgent outperforms existing methods and a series of general VLLMs across multiple grains, while generating reasoning that closely aligns with humans.