WorldBench: Un benchmark desafiante y visualmente diverso de razonamiento multimodal

Resumen

En aplicaciones del mundo real, se espera que los modelos funcionen de manera fiable en contextos diversos. Sin embargo, muchos de los benchmarks multimodales existentes amplían los tipos de tareas sin capturar la diversidad visual necesaria para manejar entradas visuales abiertas. Presentamos WorldBench, un benchmark de razonamiento desafiante y visualmente diverso para evaluar Modelos de Lenguaje Grandes Multimodales (MLLMs). Construimos una taxonomía de miles de conceptos visuales en múltiples dominios (por ejemplo, seres vivos). Guiados por esta taxonomía, curamos una amplia colección de imágenes de motores de búsqueda y conjuntos de datos existentes para representar de manera integral el mundo visual. Mediante un proceso estructurado de prueba y error, diseñamos manualmente preguntas desafiantes que los MLLMs de frontera no logran responder. En evaluaciones cuantitativas y humanas, WorldBench alcanza una mayor diversidad visual que cualquier benchmark diverso existente. Al evaluar 15 MLLMs en WorldBench, se revelan debilidades en la comprensión visual: incluso el modelo más fuerte alcanza solo un 64,0% de precisión, mientras que algunos modelos obtienen resultados marginalmente por encima del nivel de azar. Esperamos que nuestro trabajo destaque la importancia de la diversidad visual en la construcción de benchmarks multimodales.

English

In real-world applications, models are expected to perform reliably across diverse settings. Yet, many existing multimodal benchmarks expand task types without capturing the visual diversity needed to handle open-ended visual inputs. We present WorldBench, a challenging and visually diverse reasoning benchmark to evaluate Multimodal Large Language Models (MLLMs). We build a taxonomy of thousands of visual concepts across multiple domains (e.g., living things). Guided by this taxonomy, we curate a broad collection of images from search engines and existing datasets to comprehensively represent the visual world. Through structured trial-and-error, we manually design challenging questions that frontier MLLMs fail to answer. On quantitative and human evaluations, WorldBench achieves higher visual diversity than any existing diverse benchmark. Evaluating 15 MLLMs on WorldBench reveals weaknesses in visual understanding: even the strongest model reaches only 64.0% accuracy, while some models perform marginally above chance-level. We hope our work highlights the importance of visual diversity in building multimodal benchmarks.