MapEval: Una Evaluación Basada en Mapas del Razonamiento Geo-Espacial en Modelos Fundamentales
MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models
December 31, 2024
Autores: Mahir Labib Dihan, Md Tanvir Hassan, Md Tanvir Parvez, Md Hasebul Hasan, Md Almash Alam, Muhammad Aamir Cheema, Mohammed Eunus Ali, Md Rizwan Parvez
cs.AI
Resumen
Los avances recientes en modelos base han mejorado las capacidades de los sistemas de IA en el uso autónomo de herramientas y el razonamiento. Sin embargo, su habilidad en el razonamiento basado en ubicación o mapas - que mejora la vida diaria optimizando la navegación, facilitando el descubrimiento de recursos y agilizando la logística - no ha sido estudiada sistemáticamente. Para cerrar esta brecha, presentamos MapEval, un banco de pruebas diseñado para evaluar consultas de usuarios diversas y complejas basadas en mapas con razonamiento geo-espacial. MapEval presenta tres tipos de tareas (textuales, basadas en API y visuales) que requieren recopilar información mundial a través de herramientas de mapas, procesar contextos geo-espaciales heterogéneos (por ejemplo, entidades nombradas, distancias de viaje, reseñas o calificaciones de usuarios, imágenes) y razonamiento composicional, desafiantes para todos los modelos base de vanguardia. Consta de 700 preguntas de opción múltiple únicas sobre ubicaciones en 180 ciudades y 54 países, MapEval evalúa la capacidad de los modelos base para manejar relaciones espaciales, infografías de mapas, planificación de viajes y desafíos de navegación. Utilizando MapEval, realizamos una evaluación exhaustiva de 28 modelos base prominentes. Si bien ningún modelo individual destacó en todas las tareas, Claude-3.5-Sonnet, GPT-4o y Gemini-1.5-Pro lograron un rendimiento competitivo en general. Sin embargo, surgieron brechas de rendimiento sustanciales, especialmente en MapEval, donde los agentes con Claude-3.5-Sonnet superaron a GPT-4o y Gemini-1.5-Pro en un 16% y 21%, respectivamente, y las brechas se ampliaron aún más al comparar con LLM de código abierto. Nuestros análisis detallados proporcionan información sobre las fortalezas y debilidades de los modelos actuales, aunque todos los modelos aún se quedan cortos en más del 20% en promedio en comparación con el rendimiento humano, teniendo dificultades con imágenes de mapas complejas y razonamiento geo-espacial riguroso. Esta brecha destaca el papel crítico de MapEval en el avance de modelos base de propósito general con un entendimiento geo-espacial más sólido.
English
Recent advancements in foundation models have enhanced AI systems'
capabilities in autonomous tool usage and reasoning. However, their ability in
location or map-based reasoning - which improves daily life by optimizing
navigation, facilitating resource discovery, and streamlining logistics - has
not been systematically studied. To bridge this gap, we introduce MapEval, a
benchmark designed to assess diverse and complex map-based user queries with
geo-spatial reasoning. MapEval features three task types (textual, API-based,
and visual) that require collecting world information via map tools, processing
heterogeneous geo-spatial contexts (e.g., named entities, travel distances,
user reviews or ratings, images), and compositional reasoning, which all
state-of-the-art foundation models find challenging. Comprising 700 unique
multiple-choice questions about locations across 180 cities and 54 countries,
MapEval evaluates foundation models' ability to handle spatial relationships,
map infographics, travel planning, and navigation challenges. Using MapEval, we
conducted a comprehensive evaluation of 28 prominent foundation models. While
no single model excelled across all tasks, Claude-3.5-Sonnet, GPT-4o, and
Gemini-1.5-Pro achieved competitive performance overall. However, substantial
performance gaps emerged, particularly in MapEval, where agents with
Claude-3.5-Sonnet outperformed GPT-4o and Gemini-1.5-Pro by 16% and 21%,
respectively, and the gaps became even more amplified when compared to
open-source LLMs. Our detailed analyses provide insights into the strengths and
weaknesses of current models, though all models still fall short of human
performance by more than 20% on average, struggling with complex map images and
rigorous geo-spatial reasoning. This gap highlights MapEval's critical role in
advancing general-purpose foundation models with stronger geo-spatial
understanding.Summary
AI-Generated Summary