Medindo a Humildade Epistêmica em Modelos de Linguagem Multimodais de Grande Escala

Resumo

Alucinações em modelos de linguagem multimodal de grande escala (MLLMs) -- onde o modelo gera conteúdo inconsistente com a imagem de entrada -- representam riscos significativos em aplicações do mundo real, desde desinformação em questionamento visual até erros perigosos na tomada de decisões. Os benchmarks existentes testam principalmente a precisão de reconhecimento, ou seja, avaliam se os modelos podem selecionar a resposta correta entre distratores. Isso ignora uma capacidade igualmente crítica para IA confiável: reconhecer quando nenhuma das opções fornecidas está correta, um comportamento que reflete humildade epistêmica. Apresentamos o HumbleBench, um novo benchmark de alucinação projetado para avaliar a capacidade dos MLLMs de rejeitar respostas plausíveis, mas incorretas, em três tipos de alucinação: objeto, relação e atributo. Construído a partir de um conjunto de dados de grafos de cena panópticos, utilizamos anotações detalhadas de grafos de cena para extrair entidades e relações verdadeiras, e solicitamos ao GPT-4-Turbo que gere perguntas de múltipla escolha, seguidas por um rigoroso processo de filtragem manual. Cada pergunta inclui uma opção "Nenhuma das anteriores", exigindo que os modelos não apenas reconheçam informações visuais corretas, mas também identifiquem quando nenhuma resposta fornecida é válida. Avaliamos uma variedade de MLLMs de última geração -- incluindo modelos de propósito geral e especializados em raciocínio -- no HumbleBench e compartilhamos descobertas e insights valiosos com a comunidade. Ao incorporar a rejeição explícita de opções falsas, o HumbleBench preenche uma lacuna crucial nos conjuntos de avaliação atuais, fornecendo uma medida mais realista da confiabilidade dos MLLMs em cenários críticos para a segurança. Nosso código e conjunto de dados são disponibilizados publicamente e podem ser acessados em https://github.com/maifoundations/HumbleBench.

English

Hallucinations in multimodal large language models (MLLMs) -- where the model generates content inconsistent with the input image -- pose significant risks in real-world applications, from misinformation in visual question answering to unsafe errors in decision-making. Existing benchmarks primarily test recognition accuracy, i.e., evaluating whether models can select the correct answer among distractors. This overlooks an equally critical capability for trustworthy AI: recognizing when none of the provided options are correct, a behavior reflecting epistemic humility. We present HumbleBench, a new hallucination benchmark designed to evaluate MLLMs' ability to reject plausible but incorrect answers across three hallucination types: object, relation, and attribute. Built from a panoptic scene graph dataset, we leverage fine-grained scene graph annotations to extract ground-truth entities and relations, and prompt GPT-4-Turbo to generate multiple-choice questions, followed by a rigorous manual filtering process. Each question includes a "None of the above" option, requiring models not only to recognize correct visual information but also to identify when no provided answer is valid. We evaluate a variety of state-of-the-art MLLMs -- including both general-purpose and specialized reasoning models -- on HumbleBench and share valuable findings and insights with the community. By incorporating explicit false-option rejection, HumbleBench fills a key gap in current evaluation suites, providing a more realistic measure of MLLM reliability in safety-critical settings. Our code and dataset are released publicly and can be accessed at https://github.com/maifoundations/HumbleBench.

Medindo a Humildade Epistêmica em Modelos de Linguagem Multimodais de Grande Escala

Measuring Epistemic Humility in Multimodal Large Language Models

Resumo

Support