MapEval: Eine kartenbasierte Bewertung der georäumlichen Argumentation in Grundlagenmodellen
MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models
December 31, 2024
Autoren: Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez
cs.AI
Zusammenfassung
In jüngster Zeit haben Fortschritte bei Grundlagenmodellen die Fähigkeiten von KI-Systemen in der autonomen Werkzeugnutzung und im logischen Denken verbessert. Die Fähigkeit dieser Systeme in der orts- oder kartenbasierten Argumentation, die das tägliche Leben durch Optimierung der Navigation, Erleichterung der Ressourcensuche und Vereinfachung der Logistik verbessert, wurde jedoch noch nicht systematisch untersucht. Um diese Lücke zu schließen, stellen wir MapEval vor, einen Benchmark, der entwickelt wurde, um vielfältige und komplexe ortsbezogene Benutzeranfragen mit geografischem Denken zu bewerten. MapEval umfasst drei Aufgabentypen (textbasiert, API-basiert und visuell), die das Sammeln von Weltinformationen über Kartenwerkzeuge, die Verarbeitung heterogener geografischer Kontexte (z. B. benannte Entitäten, Reisedistanzen, Benutzerbewertungen oder -bewertungen, Bilder) und zusammengesetztes Denken erfordern, was alle modernen Grundlagenmodelle als herausfordernd empfinden. Bestehend aus 700 einzigartigen Multiple-Choice-Fragen zu Standorten in 180 Städten und 54 Ländern bewertet MapEval die Fähigkeit von Grundlagenmodellen, räumliche Beziehungen, Karteninfografiken, Reiseplanung und Navigationsherausforderungen zu bewältigen. Unter Verwendung von MapEval führten wir eine umfassende Bewertung von 28 prominenten Grundlagenmodellen durch. Obwohl kein einzelnes Modell in allen Aufgaben herausragte, erzielten Claude-3.5-Sonnet, GPT-4o und Gemini-1.5-Pro insgesamt eine wettbewerbsfähige Leistung. Es traten jedoch erhebliche Leistungsunterschiede auf, insbesondere bei MapEval, wo Agenten mit Claude-3.5-Sonnet GPT-4o und Gemini-1.5-Pro um 16% bzw. 21% übertrafen, und die Unterschiede wurden noch verstärkt, wenn sie mit Open-Source-LLMs verglichen wurden. Unsere detaillierten Analysen geben Einblicke in die Stärken und Schwächen der aktuellen Modelle, obwohl alle Modelle im Durchschnitt immer noch um mehr als 20% hinter der menschlichen Leistung zurückbleiben und mit komplexen Kartenbildern und strengem geografischem Denken zu kämpfen haben. Diese Kluft unterstreicht die wichtige Rolle von MapEval bei der Weiterentwicklung von allgemeinen Grundlagenmodellen mit einer stärkeren geografischen Verständnisgrundlage.
English
Recent advancements in foundation models have enhanced AI systems'
capabilities in autonomous tool usage and reasoning. However, their ability in
location or map-based reasoning - which improves daily life by optimizing
navigation, facilitating resource discovery, and streamlining logistics - has
not been systematically studied. To bridge this gap, we introduce MapEval, a
benchmark designed to assess diverse and complex map-based user queries with
geo-spatial reasoning. MapEval features three task types (textual, API-based,
and visual) that require collecting world information via map tools, processing
heterogeneous geo-spatial contexts (e.g., named entities, travel distances,
user reviews or ratings, images), and compositional reasoning, which all
state-of-the-art foundation models find challenging. Comprising 700 unique
multiple-choice questions about locations across 180 cities and 54 countries,
MapEval evaluates foundation models' ability to handle spatial relationships,
map infographics, travel planning, and navigation challenges. Using MapEval, we
conducted a comprehensive evaluation of 28 prominent foundation models. While
no single model excelled across all tasks, Claude-3.5-Sonnet, GPT-4o, and
Gemini-1.5-Pro achieved competitive performance overall. However, substantial
performance gaps emerged, particularly in MapEval, where agents with
Claude-3.5-Sonnet outperformed GPT-4o and Gemini-1.5-Pro by 16% and 21%,
respectively, and the gaps became even more amplified when compared to
open-source LLMs. Our detailed analyses provide insights into the strengths and
weaknesses of current models, though all models still fall short of human
performance by more than 20% on average, struggling with complex map images and
rigorous geo-spatial reasoning. This gap highlights MapEval's critical role in
advancing general-purpose foundation models with stronger geo-spatial
understanding.Summary
AI-Generated Summary