WorldVQA: 멀티모달 대규모 언어 모델의 원자적 세계 지식 측정
WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models
January 28, 2026
저자: Runjie Zhou, Youbo Shao, Haoyu Lu, Bowei Xing, Tongtong Bai, Yujie Chen, Jie Zhao, Lin Sui, Haotian Yao, Zijia Zhao, Hao Yang, Haoning Wu, Zaida Zhou, Jinguo Zhu, Zhiqi Huang, Yiping Bao, Yangyang Liu, Y. Charles, Xinyu Zhou
cs.AI
초록
WorldVQA는 다중모드 대규모 언어 모델(MLLMs)의 원자적 시각 세계 지식을 평가하기 위해 설계된 벤치마크를 소개합니다. 시각 지식 검색과 추론을 혼동하는 기존 평가와 달리, WorldVQA는 이러한 능력을 분리하여 "모델이 기억하는 내용"을 엄격하게 측정합니다. 본 벤치마크는 일반적인 헤드 클래스 객체부터 롱테일 희귀 객체에 이르는 계층화된 분류 체계 전반에 걸쳐 시각적 개체를 기반으로 삼고 명명하는 원자적 능력을 평가합니다. WorldVQA가 시각적 사실성에 대한 엄격한 검증 도구로 활용되어, 현재 및 차세대 최첨단 모델들의 백과사전적 폭과 허구화(hallucination) 비율 평가의 표준을 마련할 것으로 기대합니다.
English
We introduce WorldVQA, a benchmark designed to evaluate the atomic visual world knowledge of Multimodal Large Language Models (MLLMs). Unlike current evaluations, which often conflate visual knowledge retrieval with reasoning, WorldVQA decouples these capabilities to strictly measure "what the model memorizes." The benchmark assesses the atomic capability of grounding and naming visual entities across a stratified taxonomy, spanning from common head-class objects to long-tail rarities. We expect WorldVQA to serve as a rigorous test for visual factuality, thereby establishing a standard for assessing the encyclopedic breadth and hallucination rates of current and next-generation frontier models.