ChatPaper.aiChatPaper

WorldVQA : Évaluer les connaissances atomiques du monde dans les modèles de langage multimodaux de grande taille

WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models

January 28, 2026
papers.authors: Runjie Zhou, Youbo Shao, Haoyu Lu, Bowei Xing, Tongtong Bai, Yujie Chen, Jie Zhao, Lin Sui, Haotian Yao, Zijia Zhao, Hao Yang, Haoning Wu, Zaida Zhou, Jinguo Zhu, Zhiqi Huang, Yiping Bao, Yangyang Liu, Y. Charles, Xinyu Zhou
cs.AI

papers.abstract

Nous présentons WorldVQA, un benchmark conçu pour évaluer les connaissances atomiques du monde visuel des Modèles de Langue Multimodaux (MLLM). Contrairement aux évaluations actuelles qui confondent souvent la récupération de connaissances visuelles avec le raisonnement, WorldVQA dissocie ces capacités pour mesurer strictement « ce que le modèle a mémorisé ». Le benchmark évalue la capacité atomique à ancrer et à nommer des entités visuelles selon une taxonomie stratifiée, allant des objets courants des classes principales aux raretés de la longue traîne. Nous attendons que WorldVQA serve de test rigoureux pour la factualité visuelle, établissant ainsi une norme pour évaluer l'étendue encyclopédique et les taux d'hallucination des modèles frontières actuels et de prochaine génération.
English
We introduce WorldVQA, a benchmark designed to evaluate the atomic visual world knowledge of Multimodal Large Language Models (MLLMs). Unlike current evaluations, which often conflate visual knowledge retrieval with reasoning, WorldVQA decouples these capabilities to strictly measure "what the model memorizes." The benchmark assesses the atomic capability of grounding and naming visual entities across a stratified taxonomy, spanning from common head-class objects to long-tail rarities. We expect WorldVQA to serve as a rigorous test for visual factuality, thereby establishing a standard for assessing the encyclopedic breadth and hallucination rates of current and next-generation frontier models.
PDF50February 5, 2026