ChatPaper.aiChatPaper

WorldVQA: マルチモーダル大規模言語モデルにおける原子的世界知識の測定

WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models

January 28, 2026
著者: Runjie Zhou, Youbo Shao, Haoyu Lu, Bowei Xing, Tongtong Bai, Yujie Chen, Jie Zhao, Lin Sui, Haotian Yao, Zijia Zhao, Hao Yang, Haoning Wu, Zaida Zhou, Jinguo Zhu, Zhiqi Huang, Yiping Bao, Yangyang Liu, Y. Charles, Xinyu Zhou
cs.AI

要旨

WorldVQAは、大規模マルチモーダル言語モデル(MLLM)の原子的な視覚的世界知識を評価するために設計されたベンチマークです。視覚知識の検索と推論が混同されがちな既存の評価とは異なり、WorldVQAはこれらの能力を分離し、「モデルが何を記憶しているか」を厳密に測定します。本ベンチマークは、一般的なヘッドクラスオブジェクトからロングテールの希少種まで、階層化された分類体系にわたる視覚的実体の接地(grounding)と命名という原子的な能力を評価します。WorldVQAが視覚的事実性に対する厳密な試験として機能し、現在および次世代のフロンティアモデルの百科事典的広がりと幻覚(hallucination)発生率を評価する基準を確立することが期待されます。
English
We introduce WorldVQA, a benchmark designed to evaluate the atomic visual world knowledge of Multimodal Large Language Models (MLLMs). Unlike current evaluations, which often conflate visual knowledge retrieval with reasoning, WorldVQA decouples these capabilities to strictly measure "what the model memorizes." The benchmark assesses the atomic capability of grounding and naming visual entities across a stratified taxonomy, spanning from common head-class objects to long-tail rarities. We expect WorldVQA to serve as a rigorous test for visual factuality, thereby establishing a standard for assessing the encyclopedic breadth and hallucination rates of current and next-generation frontier models.
PDF50February 5, 2026