ChatPaper.aiChatPaper

Измерение эпистемической скромности в мультимодальных больших языковых моделях

Measuring Epistemic Humility in Multimodal Large Language Models

September 11, 2025
Авторы: Bingkui Tong, Jiaer Xia, Sifeng Shang, Kaiyang Zhou
cs.AI

Аннотация

Галлюцинации в мультимодальных больших языковых моделях (MLLMs) — когда модель генерирует контент, не соответствующий входному изображению — представляют значительные риски в реальных приложениях, начиная от дезинформации в визуальных вопросах и ответах и заканчивая опасными ошибками в принятии решений. Существующие бенчмарки в основном тестируют точность распознавания, то есть оценивают, могут ли модели выбрать правильный ответ среди отвлекающих вариантов. Это упускает из виду не менее важную способность для доверенного ИИ: распознавать, когда ни один из предложенных вариантов не является правильным, что отражает эпистемическую скромность. Мы представляем HumbleBench, новый бенчмарк для оценки галлюцинаций, предназначенный для проверки способности MLLMs отвергать правдоподобные, но неверные ответы в трех типах галлюцинаций: объекты, отношения и атрибуты. Используя набор данных панорамных графов сцен, мы применяем детализированные аннотации графов сцен для извлечения истинных сущностей и отношений, а затем используем GPT-4-Turbo для генерации вопросов с множественным выбором, за которыми следует строгий процесс ручной фильтрации. Каждый вопрос включает вариант "Ни один из вышеперечисленных", что требует от моделей не только распознавать правильную визуальную информацию, но и определять, когда ни один из предложенных ответов не является верным. Мы оцениваем различные современные MLLMs — как универсальные, так и специализированные модели для рассуждений — на HumbleBench и делимся ценными выводами и инсайтами с сообществом. Включая явное отвержение ложных вариантов, HumbleBench заполняет ключевой пробел в текущих наборах для оценки, предоставляя более реалистичную меру надежности MLLMs в критически важных для безопасности условиях. Наш код и набор данных публично доступны по адресу https://github.com/maifoundations/HumbleBench.
English
Hallucinations in multimodal large language models (MLLMs) -- where the model generates content inconsistent with the input image -- pose significant risks in real-world applications, from misinformation in visual question answering to unsafe errors in decision-making. Existing benchmarks primarily test recognition accuracy, i.e., evaluating whether models can select the correct answer among distractors. This overlooks an equally critical capability for trustworthy AI: recognizing when none of the provided options are correct, a behavior reflecting epistemic humility. We present HumbleBench, a new hallucination benchmark designed to evaluate MLLMs' ability to reject plausible but incorrect answers across three hallucination types: object, relation, and attribute. Built from a panoptic scene graph dataset, we leverage fine-grained scene graph annotations to extract ground-truth entities and relations, and prompt GPT-4-Turbo to generate multiple-choice questions, followed by a rigorous manual filtering process. Each question includes a "None of the above" option, requiring models not only to recognize correct visual information but also to identify when no provided answer is valid. We evaluate a variety of state-of-the-art MLLMs -- including both general-purpose and specialized reasoning models -- on HumbleBench and share valuable findings and insights with the community. By incorporating explicit false-option rejection, HumbleBench fills a key gap in current evaluation suites, providing a more realistic measure of MLLM reliability in safety-critical settings. Our code and dataset are released publicly and can be accessed at https://github.com/maifoundations/HumbleBench.
PDF63September 16, 2025