ChatPaper.aiChatPaper

WorldVQA: Messung atomaren Weltwissens in multimodalen großen Sprachmodellen

WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models

January 28, 2026
papers.authors: Runjie Zhou, Youbo Shao, Haoyu Lu, Bowei Xing, Tongtong Bai, Yujie Chen, Jie Zhao, Lin Sui, Haotian Yao, Zijia Zhao, Hao Yang, Haoning Wu, Zaida Zhou, Jinguo Zhu, Zhiqi Huang, Yiping Bao, Yangyang Liu, Y. Charles, Xinyu Zhou
cs.AI

papers.abstract

Wir stellen WorldVQA vor, einen Benchmark, der entwickelt wurde, um das atomare visuelle Weltwissen von Multimodalen Großsprachmodellen (MLLMs) zu evaluieren. Im Gegensatz zu aktuellen Bewertungen, die oft das Abrufen von visuellem Wissen mit logischem Schlussfolgern vermischen, entkoppelt WorldVQA diese Fähigkeiten, um streng zu messen, „was das Modell auswendig gelernt hat“. Der Benchmark bewertet die atomare Fähigkeit, visuelle Entitäten zu verorten und zu benennen, anhand einer stratifizierten Taxonomie, die von gängigen Objekten der Hauptklassen bis hin zu seltenen Long-Tail-Exemplaren reicht. Wir erwarten, dass WorldVQA als ein rigoroser Test für visuelle Faktizität dient und damit einen Standard zur Bewertung der enzyklopädischen Breite und der Halluzinationsraten aktueller und zukünftiger Frontier-Modelle etabliert.
English
We introduce WorldVQA, a benchmark designed to evaluate the atomic visual world knowledge of Multimodal Large Language Models (MLLMs). Unlike current evaluations, which often conflate visual knowledge retrieval with reasoning, WorldVQA decouples these capabilities to strictly measure "what the model memorizes." The benchmark assesses the atomic capability of grounding and naming visual entities across a stratified taxonomy, spanning from common head-class objects to long-tail rarities. We expect WorldVQA to serve as a rigorous test for visual factuality, thereby establishing a standard for assessing the encyclopedic breadth and hallucination rates of current and next-generation frontier models.
PDF50February 5, 2026