ChatPaper.aiChatPaper

GAEA : Un modèle conversationnel conscient de la géolocalisation

GAEA: A Geolocation Aware Conversational Model

March 20, 2025
Auteurs: Ron Campos, Ashmal Vayani, Parth Parag Kulkarni, Rohit Gupta, Aritra Dutta, Mubarak Shah
cs.AI

Résumé

La géolocalisation d'images, où traditionnellement un modèle d'IA prédit les coordonnées GPS précises d'une image, est une tâche complexe avec de nombreuses applications en aval. Cependant, l'utilisateur ne peut pas exploiter le modèle pour approfondir ses connaissances au-delà des coordonnées GPS ; le modèle manque de compréhension de l'emplacement et de la capacité conversationnelle pour interagir avec l'utilisateur. Récemment, avec les progrès considérables des grands modèles multimodaux (LMMs), les chercheurs, tant dans le domaine propriétaire qu'open-source, ont tenté de géolocaliser des images via ces LMMs. Cependant, les problèmes persistent ; au-delà des tâches générales, pour des tâches en aval plus spécialisées, dont la géolocalisation, les LMMs rencontrent des difficultés. Dans ce travail, nous proposons de résoudre ce problème en introduisant un modèle conversationnel, GAEA, capable de fournir des informations sur l'emplacement d'une image, selon les besoins de l'utilisateur. Aucun jeu de données à grande échelle permettant l'entraînement d'un tel modèle n'existe. Ainsi, nous proposons un jeu de données complet, GAEA, comprenant 800K images et environ 1,6M paires de questions-réponses, construit en exploitant les attributs d'OpenStreetMap (OSM) et les indices contextuels géographiques. Pour l'évaluation quantitative, nous proposons un benchmark diversifié comprenant 4K paires image-texte pour évaluer les capacités conversationnelles avec divers types de questions. Nous considérons 11 LMMs open-source et propriétaires de pointe et démontrons que GAEA surpasse significativement le meilleur modèle open-source, LLaVA-OneVision, de 25,69 % et le meilleur modèle propriétaire, GPT-4o, de 8,28 %. Notre jeu de données, modèle et codes sont disponibles.
English
Image geolocalization, in which, traditionally, an AI model predicts the precise GPS coordinates of an image is a challenging task with many downstream applications. However, the user cannot utilize the model to further their knowledge other than the GPS coordinate; the model lacks an understanding of the location and the conversational ability to communicate with the user. In recent days, with tremendous progress of large multimodal models (LMMs) proprietary and open-source researchers have attempted to geolocalize images via LMMs. However, the issues remain unaddressed; beyond general tasks, for more specialized downstream tasks, one of which is geolocalization, LMMs struggle. In this work, we propose to solve this problem by introducing a conversational model GAEA that can provide information regarding the location of an image, as required by a user. No large-scale dataset enabling the training of such a model exists. Thus we propose a comprehensive dataset GAEA with 800K images and around 1.6M question answer pairs constructed by leveraging OpenStreetMap (OSM) attributes and geographical context clues. For quantitative evaluation, we propose a diverse benchmark comprising 4K image-text pairs to evaluate conversational capabilities equipped with diverse question types. We consider 11 state-of-the-art open-source and proprietary LMMs and demonstrate that GAEA significantly outperforms the best open-source model, LLaVA-OneVision by 25.69% and the best proprietary model, GPT-4o by 8.28%. Our dataset, model and codes are available

Summary

AI-Generated Summary

PDF62March 24, 2025