WorldBench : un benchmark de raisonnement multimodal exigeant et visuellement diversifié

Résumé

Dans les applications réelles, les modèles sont censés fonctionner de manière fiable dans des contextes variés. Pourtant, de nombreux benchmarks multimodaux existants élargissent les types de tâches sans capturer la diversité visuelle nécessaire pour traiter des entrées visuelles ouvertes. Nous présentons WorldBench, un benchmark de raisonnement exigeant et visuellement diversifié, conçu pour évaluer les grands modèles de langage multimodaux (MLLMs). Nous construisons une taxonomie de milliers de concepts visuels couvrant plusieurs domaines (par exemple, les êtres vivants). Guidés par cette taxonomie, nous rassemblons une vaste collection d'images provenant de moteurs de recherche et de jeux de données existants afin de représenter de manière exhaustive le monde visuel. Grâce à un processus structuré d'essais et d'erreurs, nous concevons manuellement des questions complexes que les MLLMs les plus avancés échouent à résoudre. D'après les évaluations quantitatives et humaines, WorldBench atteint une diversité visuelle supérieure à celle de tout autre benchmark diversifié existant. L'évaluation de 15 MLLMs sur WorldBench révèle des lacunes dans la compréhension visuelle : même le modèle le plus performant n'atteint que 64,0 % de précision, tandis que certains modèles obtiennent des résultats à peine supérieurs au hasard. Nous espérons que notre travail souligne l'importance de la diversité visuelle dans la construction de benchmarks multimodaux.

English

In real-world applications, models are expected to perform reliably across diverse settings. Yet, many existing multimodal benchmarks expand task types without capturing the visual diversity needed to handle open-ended visual inputs. We present WorldBench, a challenging and visually diverse reasoning benchmark to evaluate Multimodal Large Language Models (MLLMs). We build a taxonomy of thousands of visual concepts across multiple domains (e.g., living things). Guided by this taxonomy, we curate a broad collection of images from search engines and existing datasets to comprehensively represent the visual world. Through structured trial-and-error, we manually design challenging questions that frontier MLLMs fail to answer. On quantitative and human evaluations, WorldBench achieves higher visual diversity than any existing diverse benchmark. Evaluating 15 MLLMs on WorldBench reveals weaknesses in visual understanding: even the strongest model reaches only 64.0% accuracy, while some models perform marginally above chance-level. We hope our work highlights the importance of visual diversity in building multimodal benchmarks.