MapEval : Une évaluation basée sur la cartographie du raisonnement géospatial dans les modèles fondamentaux
MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models
December 31, 2024
Auteurs: Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez
cs.AI
Résumé
Les récentes avancées dans les modèles fondamentaux ont amélioré les capacités des systèmes d'IA en matière d'utilisation autonome d'outils et de raisonnement. Cependant, leur capacité en matière de raisonnement basé sur la localisation ou les cartes - qui améliore la vie quotidienne en optimisant la navigation, en facilitant la découverte de ressources et en rationalisant la logistique - n'a pas été étudiée de manière systématique. Pour combler cette lacune, nous présentons MapEval, un banc d'essai conçu pour évaluer des requêtes utilisateur diverses et complexes basées sur des cartes avec un raisonnement géospatial. MapEval propose trois types de tâches (textuelles, basées sur des API et visuelles) qui nécessitent de collecter des informations mondiales via des outils cartographiques, de traiter des contextes géospatiaux hétérogènes (par ex. entités nommées, distances de voyage, avis ou évaluations d'utilisateurs, images) et un raisonnement compositionnel, que tous les modèles fondamentaux de pointe trouvent difficiles. Comprenant 700 questions à choix multiples uniques sur des lieux à travers 180 villes et 54 pays, MapEval évalue la capacité des modèles fondamentaux à gérer les relations spatiales, les infographies cartographiques, la planification de voyages et les défis de navigation. En utilisant MapEval, nous avons mené une évaluation complète de 28 modèles fondamentaux de premier plan. Bien qu'aucun modèle unique n'ait excellé dans toutes les tâches, Claude-3.5-Sonnet, GPT-4o et Gemini-1.5-Pro ont obtenu des performances compétitives dans l'ensemble. Cependant, des écarts de performance substantiels sont apparus, en particulier dans MapEval, où les agents avec Claude-3.5-Sonnet ont surpassé GPT-4o et Gemini-1.5-Pro de 16% et 21% respectivement, et les écarts se sont encore amplifiés lorsqu'ils ont été comparés à des LLM open-source. Nos analyses détaillées fournissent des informations sur les forces et les faiblesses des modèles actuels, bien que tous les modèles restent encore en deçà des performances humaines de plus de 20% en moyenne, ayant du mal avec des images cartographiques complexes et un raisonnement géospatial rigoureux. Cette lacune souligne le rôle critique de MapEval dans l'avancement des modèles fondamentaux à usage général avec une compréhension géospatiale renforcée.
English
Recent advancements in foundation models have enhanced AI systems'
capabilities in autonomous tool usage and reasoning. However, their ability in
location or map-based reasoning - which improves daily life by optimizing
navigation, facilitating resource discovery, and streamlining logistics - has
not been systematically studied. To bridge this gap, we introduce MapEval, a
benchmark designed to assess diverse and complex map-based user queries with
geo-spatial reasoning. MapEval features three task types (textual, API-based,
and visual) that require collecting world information via map tools, processing
heterogeneous geo-spatial contexts (e.g., named entities, travel distances,
user reviews or ratings, images), and compositional reasoning, which all
state-of-the-art foundation models find challenging. Comprising 700 unique
multiple-choice questions about locations across 180 cities and 54 countries,
MapEval evaluates foundation models' ability to handle spatial relationships,
map infographics, travel planning, and navigation challenges. Using MapEval, we
conducted a comprehensive evaluation of 28 prominent foundation models. While
no single model excelled across all tasks, Claude-3.5-Sonnet, GPT-4o, and
Gemini-1.5-Pro achieved competitive performance overall. However, substantial
performance gaps emerged, particularly in MapEval, where agents with
Claude-3.5-Sonnet outperformed GPT-4o and Gemini-1.5-Pro by 16% and 21%,
respectively, and the gaps became even more amplified when compared to
open-source LLMs. Our detailed analyses provide insights into the strengths and
weaknesses of current models, though all models still fall short of human
performance by more than 20% on average, struggling with complex map images and
rigorous geo-spatial reasoning. This gap highlights MapEval's critical role in
advancing general-purpose foundation models with stronger geo-spatial
understanding.