Misurare l'Umiltà Epistemica nei Modelli Linguistici Multimodali di Grande Scala
Measuring Epistemic Humility in Multimodal Large Language Models
September 11, 2025
Autori: Bingkui Tong, Jiaer Xia, Sifeng Shang, Kaiyang Zhou
cs.AI
Abstract
Le allucinazioni nei modelli linguistici multimodali di grandi dimensioni (MLLM) — in cui il modello genera contenuti inconsistenti rispetto all'immagine di input — rappresentano rischi significativi nelle applicazioni del mondo reale, dalla disinformazione nel rispondere a domande visive a errori pericolosi nel processo decisionale. Gli attuali benchmark testano principalmente l'accuratezza del riconoscimento, ovvero valutano se i modelli possono selezionare la risposta corretta tra le opzioni distrattive. Ciò trascura una capacità altrettanto critica per un'IA affidabile: riconoscere quando nessuna delle opzioni fornite è corretta, un comportamento che riflette l'umiltà epistemica. Presentiamo HumbleBench, un nuovo benchmark per le allucinazioni progettato per valutare la capacità degli MLLM di rifiutare risposte plausibili ma errate in tre tipi di allucinazioni: oggetti, relazioni e attributi. Costruito a partire da un dataset di grafi di scene panoptiche, sfruttiamo annotazioni dettagliate dei grafi di scene per estrarre entità e relazioni di riferimento, e utilizziamo GPT-4-Turbo per generare domande a scelta multipla, seguite da un rigoroso processo di filtraggio manuale. Ogni domanda include un'opzione "Nessuna delle precedenti", richiedendo ai modelli non solo di riconoscere le informazioni visive corrette, ma anche di identificare quando nessuna risposta fornita è valida. Valutiamo una varietà di MLLM all'avanguardia — inclusi modelli generalisti e specializzati nel ragionamento — su HumbleBench e condividiamo con la comunità risultati e intuizioni preziose. Incorporando il rifiuto esplicito di opzioni false, HumbleBench colma una lacuna fondamentale nei suite di valutazione attuali, fornendo una misura più realistica dell'affidabilità degli MLLM in contesti critici per la sicurezza. Il nostro codice e dataset sono rilasciati pubblicamente e possono essere consultati all'indirizzo https://github.com/maifoundations/HumbleBench.
English
Hallucinations in multimodal large language models (MLLMs) -- where the model
generates content inconsistent with the input image -- pose significant risks
in real-world applications, from misinformation in visual question answering to
unsafe errors in decision-making. Existing benchmarks primarily test
recognition accuracy, i.e., evaluating whether models can select the correct
answer among distractors. This overlooks an equally critical capability for
trustworthy AI: recognizing when none of the provided options are correct, a
behavior reflecting epistemic humility. We present HumbleBench, a new
hallucination benchmark designed to evaluate MLLMs' ability to reject plausible
but incorrect answers across three hallucination types: object, relation, and
attribute. Built from a panoptic scene graph dataset, we leverage fine-grained
scene graph annotations to extract ground-truth entities and relations, and
prompt GPT-4-Turbo to generate multiple-choice questions, followed by a
rigorous manual filtering process. Each question includes a "None of the above"
option, requiring models not only to recognize correct visual information but
also to identify when no provided answer is valid. We evaluate a variety of
state-of-the-art MLLMs -- including both general-purpose and specialized
reasoning models -- on HumbleBench and share valuable findings and insights
with the community. By incorporating explicit false-option rejection,
HumbleBench fills a key gap in current evaluation suites, providing a more
realistic measure of MLLM reliability in safety-critical settings. Our code and
dataset are released publicly and can be accessed at
https://github.com/maifoundations/HumbleBench.