WorldBench: Een uitdagende en visueel diverse multimodale redeneringsbenchmark

Samenvatting

In praktijktoepassingen wordt van modellen verwacht dat ze betrouwbaar presteren in uiteenlopende omgevingen. Toch breiden veel bestaande multimodale benchmarks het aantal taaktypen uit zonder de visuele diversiteit vast te leggen die nodig is om open visuele invoer te verwerken. Wij presenteren WorldBench, een uitdagende en visueel diverse redeneerbenchmark voor het evalueren van Multimodale Grote Taalmodellen (MLLM's). We bouwen een taxonomie van duizenden visuele concepten in meerdere domeinen (bijv. levende wezens). Geleid door deze taxonomie stellen we een brede verzameling afbeeldingen samen uit zoekmachines en bestaande datasets om de visuele wereld uitgebreid te representeren. Door middel van gestructureerd vallen en opstaan ontwerpen we handmatig uitdagende vragen die geavanceerde MLLM's niet kunnen beantwoorden. Op basis van kwantitatieve evaluaties en menselijke beoordelingen behaalt WorldBench een hogere visuele diversiteit dan elke bestaande diverse benchmark. Evaluatie van 15 MLLM's op WorldBench onthult zwaktes in visueel begrip: zelfs het sterkste model haalt slechts 64,0% nauwkeurigheid, terwijl sommige modellen marginaal boven kansniveau presteren. We hopen dat ons werk het belang van visuele diversiteit bij het bouwen van multimodale benchmarks benadrukt.

English

In real-world applications, models are expected to perform reliably across diverse settings. Yet, many existing multimodal benchmarks expand task types without capturing the visual diversity needed to handle open-ended visual inputs. We present WorldBench, a challenging and visually diverse reasoning benchmark to evaluate Multimodal Large Language Models (MLLMs). We build a taxonomy of thousands of visual concepts across multiple domains (e.g., living things). Guided by this taxonomy, we curate a broad collection of images from search engines and existing datasets to comprehensively represent the visual world. Through structured trial-and-error, we manually design challenging questions that frontier MLLMs fail to answer. On quantitative and human evaluations, WorldBench achieves higher visual diversity than any existing diverse benchmark. Evaluating 15 MLLMs on WorldBench reveals weaknesses in visual understanding: even the strongest model reaches only 64.0% accuracy, while some models perform marginally above chance-level. We hope our work highlights the importance of visual diversity in building multimodal benchmarks.