MapEval: Карта-основанная оценка геопространственного рассуждения в фундаментальных моделях
MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models
December 31, 2024
Авторы: Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez
cs.AI
Аннотация
Недавние достижения в области фундаментальных моделей улучшили возможности искусственного интеллекта в автономном использовании инструментов и рассуждениях. Однако их способность в рассуждениях на основе местоположения или карт - что улучшает повседневную жизнь путем оптимизации навигации, облегчения поиска ресурсов и оптимизации логистики - не была систематически изучена. Для заполнения этого разрыва мы представляем MapEval, бенчмарк, разработанный для оценки разнообразных и сложных запросов пользователей на основе карт с гео-пространственным рассуждением. MapEval включает три типа задач (текстовые, основанные на API и визуальные), требующие сбора информации о мире с помощью картографических инструментов, обработки гетерогенных гео-пространственных контекстов (например, именованные сущности, расстояния путешествий, отзывы или рейтинги пользователей, изображения) и композиционного рассуждения, что все современные фундаментальные модели считают сложным. Включающий 700 уникальных вопросов с выбором ответа о местоположениях в 180 городах и 54 странах, MapEval оценивает способность фундаментальных моделей обрабатывать пространственные отношения, картографическую информацию, планирование путешествий и навигационные задачи. С использованием MapEval мы провели всестороннюю оценку 28 ведущих фундаментальных моделей. Хотя ни одна модель не превзошла другие во всех задачах, Claude-3.5-Sonnet, GPT-4o и Gemini-1.5-Pro достигли конкурентоспособной производительности в целом. Однако существенные различия в производительности проявились, особенно в MapEval, где агенты с Claude-3.5-Sonnet превзошли GPT-4o и Gemini-1.5-Pro на 16% и 21% соответственно, и разрывы стали еще более усиленными при сравнении с открытыми LLM. Наши подробные анализы предоставляют понимание сильных и слабых сторон текущих моделей, хотя все модели все еще уступают человеческой производительности в среднем более чем на 20%, испытывая трудности с комплексными картами и строгим гео-пространственным рассуждением. Этот разрыв подчеркивает критическую роль MapEval в продвижении универсальных фундаментальных моделей с более сильным пониманием гео-пространственных данных.
English
Recent advancements in foundation models have enhanced AI systems'
capabilities in autonomous tool usage and reasoning. However, their ability in
location or map-based reasoning - which improves daily life by optimizing
navigation, facilitating resource discovery, and streamlining logistics - has
not been systematically studied. To bridge this gap, we introduce MapEval, a
benchmark designed to assess diverse and complex map-based user queries with
geo-spatial reasoning. MapEval features three task types (textual, API-based,
and visual) that require collecting world information via map tools, processing
heterogeneous geo-spatial contexts (e.g., named entities, travel distances,
user reviews or ratings, images), and compositional reasoning, which all
state-of-the-art foundation models find challenging. Comprising 700 unique
multiple-choice questions about locations across 180 cities and 54 countries,
MapEval evaluates foundation models' ability to handle spatial relationships,
map infographics, travel planning, and navigation challenges. Using MapEval, we
conducted a comprehensive evaluation of 28 prominent foundation models. While
no single model excelled across all tasks, Claude-3.5-Sonnet, GPT-4o, and
Gemini-1.5-Pro achieved competitive performance overall. However, substantial
performance gaps emerged, particularly in MapEval, where agents with
Claude-3.5-Sonnet outperformed GPT-4o and Gemini-1.5-Pro by 16% and 21%,
respectively, and the gaps became even more amplified when compared to
open-source LLMs. Our detailed analyses provide insights into the strengths and
weaknesses of current models, though all models still fall short of human
performance by more than 20% on average, struggling with complex map images and
rigorous geo-spatial reasoning. This gap highlights MapEval's critical role in
advancing general-purpose foundation models with stronger geo-spatial
understanding.Summary
AI-Generated Summary