ChatPaper.aiChatPaper

WorldVQA: Измерение атомарных знаний о мире в мутимодальных больших языковых моделях

WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models

January 28, 2026
Авторы: Runjie Zhou, Youbo Shao, Haoyu Lu, Bowei Xing, Tongtong Bai, Yujie Chen, Jie Zhao, Lin Sui, Haotian Yao, Zijia Zhao, Hao Yang, Haoning Wu, Zaida Zhou, Jinguo Zhu, Zhiqi Huang, Yiping Bao, Yangyang Liu, Y. Charles, Xinyu Zhou
cs.AI

Аннотация

Мы представляем WorldVQA — эталонный набор данных, разработанный для оценки атомарных знаний мультимодальных больших языковых моделей (MLLM) о визуальном мире. В отличие от существующих оценок, которые часто смешивают извлечение визуальных знаний с рассуждением, WorldVQA разделяет эти способности, чтобы строго измерить «то, что модель запомнила». Бенчмарк оценивает атомарную способность к локализации и именованию визуальных сущностей в рамках стратифицированной таксономии — от распространённых объектов головных классов до редких элементов «длинного хвоста». Мы ожидаем, что WorldVQA станет строгим тестом на визуальную фактическую точность, установив таким образом стандарт для оценки энциклопедической широты охвата и уровня галлюцинаций современных и перспективных фронтирных моделей.
English
We introduce WorldVQA, a benchmark designed to evaluate the atomic visual world knowledge of Multimodal Large Language Models (MLLMs). Unlike current evaluations, which often conflate visual knowledge retrieval with reasoning, WorldVQA decouples these capabilities to strictly measure "what the model memorizes." The benchmark assesses the atomic capability of grounding and naming visual entities across a stratified taxonomy, spanning from common head-class objects to long-tail rarities. We expect WorldVQA to serve as a rigorous test for visual factuality, thereby establishing a standard for assessing the encyclopedic breadth and hallucination rates of current and next-generation frontier models.
PDF52February 8, 2026