ChatPaper.aiChatPaper

Ao Redor do Mundo em 80 Passos: Uma Abordagem Generativa para Geolocalização Visual Global

Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

December 9, 2024
Autores: Nicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu
cs.AI

Resumo

A geolocalização visual global prevê onde uma imagem foi capturada na Terra. Como as imagens variam em quão precisamente podem ser localizadas, essa tarefa envolve inherentemente um grau significativo de ambiguidade. No entanto, abordagens existentes são determinísticas e ignoram esse aspecto. Neste artigo, temos como objetivo reduzir a lacuna entre a geolocalização tradicional e os métodos generativos modernos. Propomos a primeira abordagem generativa de geolocalização baseada em difusão e correspondência de fluxo Riemanniano, onde o processo de remoção de ruído opera diretamente na superfície da Terra. Nosso modelo alcança desempenho de ponta em três benchmarks de geolocalização visual: OpenStreetView-5M, YFCC-100M e iNat21. Além disso, introduzimos a tarefa de geolocalização visual probabilística, onde o modelo prevê uma distribuição de probabilidade sobre todas as localizações possíveis em vez de um único ponto. Apresentamos novas métricas e bases para esta tarefa, demonstrando as vantagens de nossa abordagem baseada em difusão. Códigos e modelos estarão disponíveis.
English
Global visual geolocation predicts where an image was captured on Earth. Since images vary in how precisely they can be localized, this task inherently involves a significant degree of ambiguity. However, existing approaches are deterministic and overlook this aspect. In this paper, we aim to close the gap between traditional geolocalization and modern generative methods. We propose the first generative geolocation approach based on diffusion and Riemannian flow matching, where the denoising process operates directly on the Earth's surface. Our model achieves state-of-the-art performance on three visual geolocation benchmarks: OpenStreetView-5M, YFCC-100M, and iNat21. In addition, we introduce the task of probabilistic visual geolocation, where the model predicts a probability distribution over all possible locations instead of a single point. We introduce new metrics and baselines for this task, demonstrating the advantages of our diffusion-based approach. Codes and models will be made available.

Summary

AI-Generated Summary

PDF212December 10, 2024