ChatPaper.aiChatPaper

WorldVQA: Medindo o Conhecimento Mundial Atômico em Modelos de Linguagem Multimodais de Grande Escala

WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models

January 28, 2026
Autores: Runjie Zhou, Youbo Shao, Haoyu Lu, Bowei Xing, Tongtong Bai, Yujie Chen, Jie Zhao, Lin Sui, Haotian Yao, Zijia Zhao, Hao Yang, Haoning Wu, Zaida Zhou, Jinguo Zhu, Zhiqi Huang, Yiping Bao, Yangyang Liu, Y. Charles, Xinyu Zhou
cs.AI

Resumo

Apresentamos o WorldVQA, um benchmark concebido para avaliar o conhecimento visual atómico do mundo real em Modelos de Linguagem Multimodais de Grande Escala (MLLMs). Ao contrário das avaliações atuais, que frequentemente confundem a recuperação de conhecimento visual com o raciocínio, o WorldVQA dissocia estas capacidades para medir rigorosamente "o que o modelo memoriza". O benchmark avalia a capacidade atómica de identificar e nomear entidades visuais numa taxonomia estratificada, que abrange desde objetos comuns de classes predominantes até raridades de cauda longa. Esperamos que o WorldVQA sirva como um teste rigoroso para a factualidade visual, estabelecendo assim um padrão para avaliar a abrangência enciclopédica e as taxas de alucinação dos modelos de fronteira atuais e da próxima geração.
English
We introduce WorldVQA, a benchmark designed to evaluate the atomic visual world knowledge of Multimodal Large Language Models (MLLMs). Unlike current evaluations, which often conflate visual knowledge retrieval with reasoning, WorldVQA decouples these capabilities to strictly measure "what the model memorizes." The benchmark assesses the atomic capability of grounding and naming visual entities across a stratified taxonomy, spanning from common head-class objects to long-tail rarities. We expect WorldVQA to serve as a rigorous test for visual factuality, thereby establishing a standard for assessing the encyclopedic breadth and hallucination rates of current and next-generation frontier models.
PDF62March 19, 2026