MapEval: Een op kaarten gebaseerde evaluatie van geo-ruimtelijk redeneren in fundamentele modellen
MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models
December 31, 2024
Auteurs: Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez
cs.AI
Samenvatting
Recente ontwikkelingen in foundation modellen hebben de mogelijkheden van AI-systemen verbeterd op het gebied van autonoom gereedschapsgebruik en redeneren. Echter is hun vermogen in locatie- of kaartgebaseerd redeneren - wat het dagelijks leven verbetert door navigatie te optimaliseren, het ontdekken van bronnen te vergemakkelijken en logistiek te stroomlijnen - nog niet systematisch bestudeerd. Om deze kloof te overbruggen, introduceren we MapEval, een benchmark ontworpen om diverse en complexe kaartgebaseerde gebruikersvragen te beoordelen met geo-ruimtelijk redeneren. MapEval omvat drie soorten taken (tekstueel, op API gebaseerd en visueel) die het verzamelen van wereldinformatie via kaarttools vereisen, het verwerken van heterogene geo-ruimtelijke contexten (bijv. genoemde entiteiten, reisafstanden, gebruikersrecensies of beoordelingen, afbeeldingen) en compositorisch redeneren, wat allemaal uitdagend is voor state-of-the-art foundation modellen. Bestaande uit 700 unieke meerkeuzevragen over locaties in 180 steden en 54 landen, evalueert MapEval de mogelijkheid van foundation modellen om ruimtelijke relaties, kaartinfographics, reisplanning en navigatie-uitdagingen aan te pakken. Met behulp van MapEval hebben we een uitgebreide evaluatie uitgevoerd van 28 prominente foundation modellen. Hoewel geen enkel model uitblonk in alle taken, behaalden Claude-3.5-Sonnet, GPT-4o en Gemini-1.5-Pro over het algemeen een competitieve prestatie. Echter, aanzienlijke prestatieverschillen kwamen naar voren, met name in MapEval, waar agenten met Claude-3.5-Sonnet GPT-4o en Gemini-1.5-Pro overtroffen met respectievelijk 16% en 21%, en de verschillen werden nog meer vergroot in vergelijking met open-source LLMs. Onze gedetailleerde analyses bieden inzicht in de sterke en zwakke punten van huidige modellen, hoewel alle modellen nog steeds gemiddeld meer dan 20% onder de menselijke prestatie presteren, worstelend met complexe kaartafbeeldingen en rigoureus geo-ruimtelijk redeneren. Deze kloof benadrukt de cruciale rol van MapEval bij het bevorderen van foundation modellen met een sterker geo-ruimtelijk begrip.
English
Recent advancements in foundation models have enhanced AI systems'
capabilities in autonomous tool usage and reasoning. However, their ability in
location or map-based reasoning - which improves daily life by optimizing
navigation, facilitating resource discovery, and streamlining logistics - has
not been systematically studied. To bridge this gap, we introduce MapEval, a
benchmark designed to assess diverse and complex map-based user queries with
geo-spatial reasoning. MapEval features three task types (textual, API-based,
and visual) that require collecting world information via map tools, processing
heterogeneous geo-spatial contexts (e.g., named entities, travel distances,
user reviews or ratings, images), and compositional reasoning, which all
state-of-the-art foundation models find challenging. Comprising 700 unique
multiple-choice questions about locations across 180 cities and 54 countries,
MapEval evaluates foundation models' ability to handle spatial relationships,
map infographics, travel planning, and navigation challenges. Using MapEval, we
conducted a comprehensive evaluation of 28 prominent foundation models. While
no single model excelled across all tasks, Claude-3.5-Sonnet, GPT-4o, and
Gemini-1.5-Pro achieved competitive performance overall. However, substantial
performance gaps emerged, particularly in MapEval, where agents with
Claude-3.5-Sonnet outperformed GPT-4o and Gemini-1.5-Pro by 16% and 21%,
respectively, and the gaps became even more amplified when compared to
open-source LLMs. Our detailed analyses provide insights into the strengths and
weaknesses of current models, though all models still fall short of human
performance by more than 20% on average, struggling with complex map images and
rigorous geo-spatial reasoning. This gap highlights MapEval's critical role in
advancing general-purpose foundation models with stronger geo-spatial
understanding.Summary
AI-Generated Summary