MapEval: Una Evaluación Basada en Mapas del Razonamiento Geo-Espacial en Modelos Fundamentales

Resumen

Los avances recientes en modelos base han mejorado las capacidades de los sistemas de IA en el uso autónomo de herramientas y el razonamiento. Sin embargo, su habilidad en el razonamiento basado en ubicación o mapas - que mejora la vida diaria optimizando la navegación, facilitando el descubrimiento de recursos y agilizando la logística - no ha sido estudiada sistemáticamente. Para cerrar esta brecha, presentamos MapEval, un banco de pruebas diseñado para evaluar consultas de usuarios diversas y complejas basadas en mapas con razonamiento geo-espacial. MapEval presenta tres tipos de tareas (textuales, basadas en API y visuales) que requieren recopilar información mundial a través de herramientas de mapas, procesar contextos geo-espaciales heterogéneos (por ejemplo, entidades nombradas, distancias de viaje, reseñas o calificaciones de usuarios, imágenes) y razonamiento composicional, desafiantes para todos los modelos base de vanguardia. Consta de 700 preguntas de opción múltiple únicas sobre ubicaciones en 180 ciudades y 54 países, MapEval evalúa la capacidad de los modelos base para manejar relaciones espaciales, infografías de mapas, planificación de viajes y desafíos de navegación. Utilizando MapEval, realizamos una evaluación exhaustiva de 28 modelos base prominentes. Si bien ningún modelo individual destacó en todas las tareas, Claude-3.5-Sonnet, GPT-4o y Gemini-1.5-Pro lograron un rendimiento competitivo en general. Sin embargo, surgieron brechas de rendimiento sustanciales, especialmente en MapEval, donde los agentes con Claude-3.5-Sonnet superaron a GPT-4o y Gemini-1.5-Pro en un 16% y 21%, respectivamente, y las brechas se ampliaron aún más al comparar con LLM de código abierto. Nuestros análisis detallados proporcionan información sobre las fortalezas y debilidades de los modelos actuales, aunque todos los modelos aún se quedan cortos en más del 20% en promedio en comparación con el rendimiento humano, teniendo dificultades con imágenes de mapas complejas y razonamiento geo-espacial riguroso. Esta brecha destaca el papel crítico de MapEval en el avance de modelos base de propósito general con un entendimiento geo-espacial más sólido.

English

Recent advancements in foundation models have enhanced AI systems' capabilities in autonomous tool usage and reasoning. However, their ability in location or map-based reasoning - which improves daily life by optimizing navigation, facilitating resource discovery, and streamlining logistics - has not been systematically studied. To bridge this gap, we introduce MapEval, a benchmark designed to assess diverse and complex map-based user queries with geo-spatial reasoning. MapEval features three task types (textual, API-based, and visual) that require collecting world information via map tools, processing heterogeneous geo-spatial contexts (e.g., named entities, travel distances, user reviews or ratings, images), and compositional reasoning, which all state-of-the-art foundation models find challenging. Comprising 700 unique multiple-choice questions about locations across 180 cities and 54 countries, MapEval evaluates foundation models' ability to handle spatial relationships, map infographics, travel planning, and navigation challenges. Using MapEval, we conducted a comprehensive evaluation of 28 prominent foundation models. While no single model excelled across all tasks, Claude-3.5-Sonnet, GPT-4o, and Gemini-1.5-Pro achieved competitive performance overall. However, substantial performance gaps emerged, particularly in MapEval, where agents with Claude-3.5-Sonnet outperformed GPT-4o and Gemini-1.5-Pro by 16% and 21%, respectively, and the gaps became even more amplified when compared to open-source LLMs. Our detailed analyses provide insights into the strengths and weaknesses of current models, though all models still fall short of human performance by more than 20% on average, struggling with complex map images and rigorous geo-spatial reasoning. This gap highlights MapEval's critical role in advancing general-purpose foundation models with stronger geo-spatial understanding.

MapEval: Una Evaluación Basada en Mapas del Razonamiento Geo-Espacial en Modelos Fundamentales

MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models

Resumen

Support