WorldBench: Ein anspruchsvoller und visuell vielfältiger Benchmark für multimodales Reasoning

Zusammenfassung

In realen Anwendungen wird erwartet, dass Modelle zuverlässig in unterschiedlichen Umgebungen funktionieren. Viele bestehende multimodale Benchmarks erweitern jedoch die Aufgabentypen, ohne die visuelle Vielfalt zu erfassen, die für den Umgang mit offenen visuellen Eingaben erforderlich ist. Wir stellen WorldBench vor, einen anspruchsvollen und visuell vielfältigen Reasoning-Benchmark zur Bewertung Multimodaler Großer Sprachmodelle (MLLMs). Wir erstellen eine Taxonomie mit Tausenden von visuellen Konzepten aus mehreren Domänen (z. B. Lebewesen). Geleitet von dieser Taxonomie kuratieren wir eine breite Sammlung von Bildern aus Suchmaschinen und bestehenden Datensätzen, um die visuelle Welt umfassend abzubilden. Durch strukturiertes Versuch-und-Irrtum-Verfahren entwerfen wir manuell anspruchsvolle Fragen, die führende MLLMs nicht beantworten können. In quantitativen und menschlichen Bewertungen erreicht WorldBench eine höhere visuelle Vielfalt als jeder bestehende diverse Benchmark. Die Evaluierung von 15 MLLMs auf WorldBench zeigt Schwächen im visuellen Verständnis: Selbst das stärkste Modell erreicht nur 64,0% Genauigkeit, während einige Modelle kaum über Zufallsniveau liegen. Wir hoffen, dass unsere Arbeit die Bedeutung visueller Vielfalt beim Aufbau multimodaler Benchmarks unterstreicht.

English

In real-world applications, models are expected to perform reliably across diverse settings. Yet, many existing multimodal benchmarks expand task types without capturing the visual diversity needed to handle open-ended visual inputs. We present WorldBench, a challenging and visually diverse reasoning benchmark to evaluate Multimodal Large Language Models (MLLMs). We build a taxonomy of thousands of visual concepts across multiple domains (e.g., living things). Guided by this taxonomy, we curate a broad collection of images from search engines and existing datasets to comprehensively represent the visual world. Through structured trial-and-error, we manually design challenging questions that frontier MLLMs fail to answer. On quantitative and human evaluations, WorldBench achieves higher visual diversity than any existing diverse benchmark. Evaluating 15 MLLMs on WorldBench reveals weaknesses in visual understanding: even the strongest model reaches only 64.0% accuracy, while some models perform marginally above chance-level. We hope our work highlights the importance of visual diversity in building multimodal benchmarks.