WorldVQA: Evaluación del Conocimiento Mundial Atómico en Modelos de Lenguaje Grandes Multimodales
WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models
January 28, 2026
Autores: Runjie Zhou, Youbo Shao, Haoyu Lu, Bowei Xing, Tongtong Bai, Yujie Chen, Jie Zhao, Lin Sui, Haotian Yao, Zijia Zhao, Hao Yang, Haoning Wu, Zaida Zhou, Jinguo Zhu, Zhiqi Huang, Yiping Bao, Yangyang Liu, Y. Charles, Xinyu Zhou
cs.AI
Resumen
Presentamos WorldVQA, un benchmark diseñado para evaluar el conocimiento visual mundial atómico de los Modelos de Lenguaje Grandes Multimodales (MLLM). A diferencia de las evaluaciones actuales, que a menudo fusionan la recuperación de conocimiento visual con el razonamiento, WorldVQA desacopla estas capacidades para medir estrictamente "lo que el modelo memoriza". El benchmark evalúa la capacidad atómica de fundamentar y nombrar entidades visuales a lo largo de una taxonomía estratificada, que abarca desde objetos comunes de clases principales hasta rarezas de cola larga. Esperamos que WorldVQA sirva como una prueba rigurosa de la factualidad visual, estableciendo así un estándar para evaluar la amplitud enciclopédica y las tasas de alucinación de los modelos frontera actuales y de próxima generación.
English
We introduce WorldVQA, a benchmark designed to evaluate the atomic visual world knowledge of Multimodal Large Language Models (MLLMs). Unlike current evaluations, which often conflate visual knowledge retrieval with reasoning, WorldVQA decouples these capabilities to strictly measure "what the model memorizes." The benchmark assesses the atomic capability of grounding and naming visual entities across a stratified taxonomy, spanning from common head-class objects to long-tail rarities. We expect WorldVQA to serve as a rigorous test for visual factuality, thereby establishing a standard for assessing the encyclopedic breadth and hallucination rates of current and next-generation frontier models.