ChatPaper.aiChatPaper

Medición de la Humildad Epistémica en Modelos de Lenguaje Multimodales de Gran Escala

Measuring Epistemic Humility in Multimodal Large Language Models

September 11, 2025
Autores: Bingkui Tong, Jiaer Xia, Sifeng Shang, Kaiyang Zhou
cs.AI

Resumen

Las alucinaciones en modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) —donde el modelo genera contenido inconsistente con la imagen de entrada— representan riesgos significativos en aplicaciones del mundo real, desde la desinformación en tareas de respuesta visual a preguntas hasta errores inseguros en la toma de decisiones. Los puntos de referencia existentes evalúan principalmente la precisión en el reconocimiento, es decir, si los modelos pueden seleccionar la respuesta correcta entre distractores. Esto pasa por alto una capacidad igualmente crítica para la inteligencia artificial confiable: reconocer cuando ninguna de las opciones proporcionadas es correcta, un comportamiento que refleja humildad epistémica. Presentamos HumbleBench, un nuevo punto de referencia para evaluar alucinaciones diseñado para evaluar la capacidad de los MLLMs para rechazar respuestas plausibles pero incorrectas en tres tipos de alucinaciones: objetos, relaciones y atributos. Construido a partir de un conjunto de datos de grafos de escenas panópticas, aprovechamos anotaciones detalladas de grafos de escenas para extraer entidades y relaciones de referencia, y utilizamos GPT-4-Turbo para generar preguntas de opción múltiple, seguidas de un riguroso proceso de filtrado manual. Cada pregunta incluye una opción "Ninguna de las anteriores", lo que requiere que los modelos no solo reconozcan información visual correcta, sino también que identifiquen cuando ninguna respuesta proporcionada es válida. Evaluamos una variedad de MLLMs de última generación —incluyendo tanto modelos de propósito general como modelos especializados en razonamiento— en HumbleBench y compartimos hallazgos y perspectivas valiosas con la comunidad. Al incorporar el rechazo explícito de opciones falsas, HumbleBench llena un vacío clave en las suites de evaluación actuales, proporcionando una medida más realista de la confiabilidad de los MLLMs en entornos críticos para la seguridad. Nuestro código y conjunto de datos se publican de manera abierta y pueden accederse en https://github.com/maifoundations/HumbleBench.
English
Hallucinations in multimodal large language models (MLLMs) -- where the model generates content inconsistent with the input image -- pose significant risks in real-world applications, from misinformation in visual question answering to unsafe errors in decision-making. Existing benchmarks primarily test recognition accuracy, i.e., evaluating whether models can select the correct answer among distractors. This overlooks an equally critical capability for trustworthy AI: recognizing when none of the provided options are correct, a behavior reflecting epistemic humility. We present HumbleBench, a new hallucination benchmark designed to evaluate MLLMs' ability to reject plausible but incorrect answers across three hallucination types: object, relation, and attribute. Built from a panoptic scene graph dataset, we leverage fine-grained scene graph annotations to extract ground-truth entities and relations, and prompt GPT-4-Turbo to generate multiple-choice questions, followed by a rigorous manual filtering process. Each question includes a "None of the above" option, requiring models not only to recognize correct visual information but also to identify when no provided answer is valid. We evaluate a variety of state-of-the-art MLLMs -- including both general-purpose and specialized reasoning models -- on HumbleBench and share valuable findings and insights with the community. By incorporating explicit false-option rejection, HumbleBench fills a key gap in current evaluation suites, providing a more realistic measure of MLLM reliability in safety-critical settings. Our code and dataset are released publicly and can be accessed at https://github.com/maifoundations/HumbleBench.
PDF63September 16, 2025