ChatPaper.aiChatPaper

MapEval: Een op kaarten gebaseerde evaluatie van geo-ruimtelijk redeneren in fundamentele modellen

MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models

December 31, 2024
Auteurs: Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez
cs.AI

Samenvatting

Recente ontwikkelingen in foundation modellen hebben de mogelijkheden van AI-systemen verbeterd op het gebied van autonoom gereedschapsgebruik en redeneren. Echter is hun vermogen in locatie- of kaartgebaseerd redeneren - wat het dagelijks leven verbetert door navigatie te optimaliseren, het ontdekken van bronnen te vergemakkelijken en logistiek te stroomlijnen - nog niet systematisch bestudeerd. Om deze kloof te overbruggen, introduceren we MapEval, een benchmark ontworpen om diverse en complexe kaartgebaseerde gebruikersvragen te beoordelen met geo-ruimtelijk redeneren. MapEval omvat drie soorten taken (tekstueel, op API gebaseerd en visueel) die het verzamelen van wereldinformatie via kaarttools vereisen, het verwerken van heterogene geo-ruimtelijke contexten (bijv. genoemde entiteiten, reisafstanden, gebruikersrecensies of beoordelingen, afbeeldingen) en compositorisch redeneren, wat allemaal uitdagend is voor state-of-the-art foundation modellen. Bestaande uit 700 unieke meerkeuzevragen over locaties in 180 steden en 54 landen, evalueert MapEval de mogelijkheid van foundation modellen om ruimtelijke relaties, kaartinfographics, reisplanning en navigatie-uitdagingen aan te pakken. Met behulp van MapEval hebben we een uitgebreide evaluatie uitgevoerd van 28 prominente foundation modellen. Hoewel geen enkel model uitblonk in alle taken, behaalden Claude-3.5-Sonnet, GPT-4o en Gemini-1.5-Pro over het algemeen een competitieve prestatie. Echter, aanzienlijke prestatieverschillen kwamen naar voren, met name in MapEval, waar agenten met Claude-3.5-Sonnet GPT-4o en Gemini-1.5-Pro overtroffen met respectievelijk 16% en 21%, en de verschillen werden nog meer vergroot in vergelijking met open-source LLMs. Onze gedetailleerde analyses bieden inzicht in de sterke en zwakke punten van huidige modellen, hoewel alle modellen nog steeds gemiddeld meer dan 20% onder de menselijke prestatie presteren, worstelend met complexe kaartafbeeldingen en rigoureus geo-ruimtelijk redeneren. Deze kloof benadrukt de cruciale rol van MapEval bij het bevorderen van foundation modellen met een sterker geo-ruimtelijk begrip.
English
Recent advancements in foundation models have enhanced AI systems' capabilities in autonomous tool usage and reasoning. However, their ability in location or map-based reasoning - which improves daily life by optimizing navigation, facilitating resource discovery, and streamlining logistics - has not been systematically studied. To bridge this gap, we introduce MapEval, a benchmark designed to assess diverse and complex map-based user queries with geo-spatial reasoning. MapEval features three task types (textual, API-based, and visual) that require collecting world information via map tools, processing heterogeneous geo-spatial contexts (e.g., named entities, travel distances, user reviews or ratings, images), and compositional reasoning, which all state-of-the-art foundation models find challenging. Comprising 700 unique multiple-choice questions about locations across 180 cities and 54 countries, MapEval evaluates foundation models' ability to handle spatial relationships, map infographics, travel planning, and navigation challenges. Using MapEval, we conducted a comprehensive evaluation of 28 prominent foundation models. While no single model excelled across all tasks, Claude-3.5-Sonnet, GPT-4o, and Gemini-1.5-Pro achieved competitive performance overall. However, substantial performance gaps emerged, particularly in MapEval, where agents with Claude-3.5-Sonnet outperformed GPT-4o and Gemini-1.5-Pro by 16% and 21%, respectively, and the gaps became even more amplified when compared to open-source LLMs. Our detailed analyses provide insights into the strengths and weaknesses of current models, though all models still fall short of human performance by more than 20% on average, struggling with complex map images and rigorous geo-spatial reasoning. This gap highlights MapEval's critical role in advancing general-purpose foundation models with stronger geo-spatial understanding.

Summary

AI-Generated Summary

PDF222January 3, 2025