MapEval: Een op kaarten gebaseerde evaluatie van geo-ruimtelijk redeneren in fundamentele modellen

Samenvatting

Recente ontwikkelingen in foundation modellen hebben de mogelijkheden van AI-systemen verbeterd op het gebied van autonoom gereedschapsgebruik en redeneren. Echter is hun vermogen in locatie- of kaartgebaseerd redeneren - wat het dagelijks leven verbetert door navigatie te optimaliseren, het ontdekken van bronnen te vergemakkelijken en logistiek te stroomlijnen - nog niet systematisch bestudeerd. Om deze kloof te overbruggen, introduceren we MapEval, een benchmark ontworpen om diverse en complexe kaartgebaseerde gebruikersvragen te beoordelen met geo-ruimtelijk redeneren. MapEval omvat drie soorten taken (tekstueel, op API gebaseerd en visueel) die het verzamelen van wereldinformatie via kaarttools vereisen, het verwerken van heterogene geo-ruimtelijke contexten (bijv. genoemde entiteiten, reisafstanden, gebruikersrecensies of beoordelingen, afbeeldingen) en compositorisch redeneren, wat allemaal uitdagend is voor state-of-the-art foundation modellen. Bestaande uit 700 unieke meerkeuzevragen over locaties in 180 steden en 54 landen, evalueert MapEval de mogelijkheid van foundation modellen om ruimtelijke relaties, kaartinfographics, reisplanning en navigatie-uitdagingen aan te pakken. Met behulp van MapEval hebben we een uitgebreide evaluatie uitgevoerd van 28 prominente foundation modellen. Hoewel geen enkel model uitblonk in alle taken, behaalden Claude-3.5-Sonnet, GPT-4o en Gemini-1.5-Pro over het algemeen een competitieve prestatie. Echter, aanzienlijke prestatieverschillen kwamen naar voren, met name in MapEval, waar agenten met Claude-3.5-Sonnet GPT-4o en Gemini-1.5-Pro overtroffen met respectievelijk 16% en 21%, en de verschillen werden nog meer vergroot in vergelijking met open-source LLMs. Onze gedetailleerde analyses bieden inzicht in de sterke en zwakke punten van huidige modellen, hoewel alle modellen nog steeds gemiddeld meer dan 20% onder de menselijke prestatie presteren, worstelend met complexe kaartafbeeldingen en rigoureus geo-ruimtelijk redeneren. Deze kloof benadrukt de cruciale rol van MapEval bij het bevorderen van foundation modellen met een sterker geo-ruimtelijk begrip.

English

Recent advancements in foundation models have enhanced AI systems' capabilities in autonomous tool usage and reasoning. However, their ability in location or map-based reasoning - which improves daily life by optimizing navigation, facilitating resource discovery, and streamlining logistics - has not been systematically studied. To bridge this gap, we introduce MapEval, a benchmark designed to assess diverse and complex map-based user queries with geo-spatial reasoning. MapEval features three task types (textual, API-based, and visual) that require collecting world information via map tools, processing heterogeneous geo-spatial contexts (e.g., named entities, travel distances, user reviews or ratings, images), and compositional reasoning, which all state-of-the-art foundation models find challenging. Comprising 700 unique multiple-choice questions about locations across 180 cities and 54 countries, MapEval evaluates foundation models' ability to handle spatial relationships, map infographics, travel planning, and navigation challenges. Using MapEval, we conducted a comprehensive evaluation of 28 prominent foundation models. While no single model excelled across all tasks, Claude-3.5-Sonnet, GPT-4o, and Gemini-1.5-Pro achieved competitive performance overall. However, substantial performance gaps emerged, particularly in MapEval, where agents with Claude-3.5-Sonnet outperformed GPT-4o and Gemini-1.5-Pro by 16% and 21%, respectively, and the gaps became even more amplified when compared to open-source LLMs. Our detailed analyses provide insights into the strengths and weaknesses of current models, though all models still fall short of human performance by more than 20% on average, struggling with complex map images and rigorous geo-spatial reasoning. This gap highlights MapEval's critical role in advancing general-purpose foundation models with stronger geo-spatial understanding.

MapEval: Een op kaarten gebaseerde evaluatie van geo-ruimtelijk redeneren in fundamentele modellen

MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models

Samenvatting

Summary

Support

Support