WorldBench: Um Benchmark Desafiador e Visualmente Diverso de Raciocínio Multimodal

Resumo

Em aplicações do mundo real, espera-se que modelos tenham desempenho confiável em diversos ambientes. No entanto, muitos benchmarks multimodais existentes expandem tipos de tarefas sem capturar a diversidade visual necessária para lidar com entradas visuais abertas. Apresentamos o WorldBench, um benchmark desafiador e visualmente diverso para avaliar Modelos de Linguagem de Grande Escala Multimodais (MLLMs). Construímos uma taxonomia de milhares de conceitos visuais em múltiplos domínios (por exemplo, seres vivos). Guiados por essa taxonomia, curamos uma ampla coleção de imagens de mecanismos de busca e conjuntos de dados existentes para representar abrangentemente o mundo visual. Por meio de tentativa e erro estruturada, projetamos manualmente perguntas desafiadoras que MLLMs de ponta não conseguem responder. Em avaliações quantitativas e humanas, o WorldBench alcança maior diversidade visual do que qualquer benchmark diverso existente. A avaliação de 15 MLLMs no WorldBench revela fraquezas na compreensão visual: mesmo o modelo mais forte atinge apenas 64,0% de precisão, enquanto alguns modelos têm desempenho marginalmente acima do nível aleatório. Esperamos que nosso trabalho destaque a importância da diversidade visual na construção de benchmarks multimodais.

English

In real-world applications, models are expected to perform reliably across diverse settings. Yet, many existing multimodal benchmarks expand task types without capturing the visual diversity needed to handle open-ended visual inputs. We present WorldBench, a challenging and visually diverse reasoning benchmark to evaluate Multimodal Large Language Models (MLLMs). We build a taxonomy of thousands of visual concepts across multiple domains (e.g., living things). Guided by this taxonomy, we curate a broad collection of images from search engines and existing datasets to comprehensively represent the visual world. Through structured trial-and-error, we manually design challenging questions that frontier MLLMs fail to answer. On quantitative and human evaluations, WorldBench achieves higher visual diversity than any existing diverse benchmark. Evaluating 15 MLLMs on WorldBench reveals weaknesses in visual understanding: even the strongest model reaches only 64.0% accuracy, while some models perform marginally above chance-level. We hope our work highlights the importance of visual diversity in building multimodal benchmarks.