WorldBench: сложный и визуально разнообразный мультимодальный бенчмарк для рассуждений

Аннотация

В реальных приложениях модели должны надежно работать в разнообразных условиях. Тем не менее, многие существующие мультимодальные бенчмарки расширяют типы задач, не охватывая визуальное разнообразие, необходимое для работы с открытыми визуальными входами. Мы представляем WorldBench — сложный и визуально разнообразный бенчмарк для рассуждений, предназначенный для оценки мультимодальных больших языковых моделей (MLLMs). Мы строим таксономию тысяч визуальных концепций в нескольких областях (например, живые существа). Руководствуясь этой таксономией, мы подбираем широкий набор изображений из поисковых систем и существующих наборов данных, чтобы всесторонне представить визуальный мир. Путем структурированных проб и ошибок мы вручную разрабатываем сложные вопросы, на которые передовые MLLMs не могут ответить. По результатам количественных и человеческих оценок WorldBench демонстрирует более высокое визуальное разнообразие, чем любой существующий разнообразный бенчмарк. Оценка 15 MLLMs на WorldBench выявляет слабые места в визуальном понимании: даже самая сильная модель достигает лишь 64,0% точности, в то время как некоторые модели работают лишь немного выше уровня случайности. Мы надеемся, что наша работа подчеркивает важность визуального разнообразия при создании мультимодальных бенчмарков.

English

In real-world applications, models are expected to perform reliably across diverse settings. Yet, many existing multimodal benchmarks expand task types without capturing the visual diversity needed to handle open-ended visual inputs. We present WorldBench, a challenging and visually diverse reasoning benchmark to evaluate Multimodal Large Language Models (MLLMs). We build a taxonomy of thousands of visual concepts across multiple domains (e.g., living things). Guided by this taxonomy, we curate a broad collection of images from search engines and existing datasets to comprehensively represent the visual world. Through structured trial-and-error, we manually design challenging questions that frontier MLLMs fail to answer. On quantitative and human evaluations, WorldBench achieves higher visual diversity than any existing diverse benchmark. Evaluating 15 MLLMs on WorldBench reveals weaknesses in visual understanding: even the strongest model reaches only 64.0% accuracy, while some models perform marginally above chance-level. We hope our work highlights the importance of visual diversity in building multimodal benchmarks.