WorldVQA: Het Meten van Atomistische Wereldkennis in Multimodale Grote Taalmodellen
WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models
January 28, 2026
Auteurs: Runjie Zhou, Youbo Shao, Haoyu Lu, Bowei Xing, Tongtong Bai, Yujie Chen, Jie Zhao, Lin Sui, Haotian Yao, Zijia Zhao, Hao Yang, Haoning Wu, Zaida Zhou, Jinguo Zhu, Zhiqi Huang, Yiping Bao, Yangyang Liu, Y. Charles, Xinyu Zhou
cs.AI
Samenvatting
Wij introduceren WorldVQA, een benchmark ontworpen om het atomaire visuele wereldkennis van Multimodale Grote Taalmodellen (MLLM's) te evalueren. In tegenstelling tot huidige evaluaties, die het ophalen van visuele kennis vaak vermengen met redeneren, ontkoppelt WorldVQA deze capaciteiten om strikt te meten "wat het model heeft gememoriseerd". De benchmark beoordeelt de atomaire capaciteit om visuele entiteiten te grondvesten en te benoemen volgens een gelaagde taxonomie, die zich uitstrekt van alledaagse hoofdklasse-objecten tot zeldzame exemplaren uit de 'long tail'. Wij verwachten dat WorldVQA zal dienen als een rigoureuze test voor visuele feitelijkheid, en zo een standaard zal vestigen voor het beoordelen van de encyclopedische breedte en hallucinatiepercentages van huidige en toekomstige frontier-modellen.
English
We introduce WorldVQA, a benchmark designed to evaluate the atomic visual world knowledge of Multimodal Large Language Models (MLLMs). Unlike current evaluations, which often conflate visual knowledge retrieval with reasoning, WorldVQA decouples these capabilities to strictly measure "what the model memorizes." The benchmark assesses the atomic capability of grounding and naming visual entities across a stratified taxonomy, spanning from common head-class objects to long-tail rarities. We expect WorldVQA to serve as a rigorous test for visual factuality, thereby establishing a standard for assessing the encyclopedic breadth and hallucination rates of current and next-generation frontier models.