Medindo a Humildade Epistêmica em Modelos de Linguagem Multimodais de Grande Escala
Measuring Epistemic Humility in Multimodal Large Language Models
September 11, 2025
Autores: Bingkui Tong, Jiaer Xia, Sifeng Shang, Kaiyang Zhou
cs.AI
Resumo
Alucinações em modelos de linguagem multimodal de grande escala (MLLMs) -- onde o modelo gera conteúdo inconsistente com a imagem de entrada -- representam riscos significativos em aplicações do mundo real, desde desinformação em questionamento visual até erros perigosos na tomada de decisões. Os benchmarks existentes testam principalmente a precisão de reconhecimento, ou seja, avaliam se os modelos podem selecionar a resposta correta entre distratores. Isso ignora uma capacidade igualmente crítica para IA confiável: reconhecer quando nenhuma das opções fornecidas está correta, um comportamento que reflete humildade epistêmica. Apresentamos o HumbleBench, um novo benchmark de alucinação projetado para avaliar a capacidade dos MLLMs de rejeitar respostas plausíveis, mas incorretas, em três tipos de alucinação: objeto, relação e atributo. Construído a partir de um conjunto de dados de grafos de cena panópticos, utilizamos anotações detalhadas de grafos de cena para extrair entidades e relações verdadeiras, e solicitamos ao GPT-4-Turbo que gere perguntas de múltipla escolha, seguidas por um rigoroso processo de filtragem manual. Cada pergunta inclui uma opção "Nenhuma das anteriores", exigindo que os modelos não apenas reconheçam informações visuais corretas, mas também identifiquem quando nenhuma resposta fornecida é válida. Avaliamos uma variedade de MLLMs de última geração -- incluindo modelos de propósito geral e especializados em raciocínio -- no HumbleBench e compartilhamos descobertas e insights valiosos com a comunidade. Ao incorporar a rejeição explícita de opções falsas, o HumbleBench preenche uma lacuna crucial nos conjuntos de avaliação atuais, fornecendo uma medida mais realista da confiabilidade dos MLLMs em cenários críticos para a segurança. Nosso código e conjunto de dados são disponibilizados publicamente e podem ser acessados em https://github.com/maifoundations/HumbleBench.
English
Hallucinations in multimodal large language models (MLLMs) -- where the model
generates content inconsistent with the input image -- pose significant risks
in real-world applications, from misinformation in visual question answering to
unsafe errors in decision-making. Existing benchmarks primarily test
recognition accuracy, i.e., evaluating whether models can select the correct
answer among distractors. This overlooks an equally critical capability for
trustworthy AI: recognizing when none of the provided options are correct, a
behavior reflecting epistemic humility. We present HumbleBench, a new
hallucination benchmark designed to evaluate MLLMs' ability to reject plausible
but incorrect answers across three hallucination types: object, relation, and
attribute. Built from a panoptic scene graph dataset, we leverage fine-grained
scene graph annotations to extract ground-truth entities and relations, and
prompt GPT-4-Turbo to generate multiple-choice questions, followed by a
rigorous manual filtering process. Each question includes a "None of the above"
option, requiring models not only to recognize correct visual information but
also to identify when no provided answer is valid. We evaluate a variety of
state-of-the-art MLLMs -- including both general-purpose and specialized
reasoning models -- on HumbleBench and share valuable findings and insights
with the community. By incorporating explicit false-option rejection,
HumbleBench fills a key gap in current evaluation suites, providing a more
realistic measure of MLLM reliability in safety-critical settings. Our code and
dataset are released publicly and can be accessed at
https://github.com/maifoundations/HumbleBench.