Misurare l'Umiltà Epistemica nei Modelli Linguistici Multimodali di Grande Scala

Abstract

Le allucinazioni nei modelli linguistici multimodali di grandi dimensioni (MLLM) — in cui il modello genera contenuti inconsistenti rispetto all'immagine di input — rappresentano rischi significativi nelle applicazioni del mondo reale, dalla disinformazione nel rispondere a domande visive a errori pericolosi nel processo decisionale. Gli attuali benchmark testano principalmente l'accuratezza del riconoscimento, ovvero valutano se i modelli possono selezionare la risposta corretta tra le opzioni distrattive. Ciò trascura una capacità altrettanto critica per un'IA affidabile: riconoscere quando nessuna delle opzioni fornite è corretta, un comportamento che riflette l'umiltà epistemica. Presentiamo HumbleBench, un nuovo benchmark per le allucinazioni progettato per valutare la capacità degli MLLM di rifiutare risposte plausibili ma errate in tre tipi di allucinazioni: oggetti, relazioni e attributi. Costruito a partire da un dataset di grafi di scene panoptiche, sfruttiamo annotazioni dettagliate dei grafi di scene per estrarre entità e relazioni di riferimento, e utilizziamo GPT-4-Turbo per generare domande a scelta multipla, seguite da un rigoroso processo di filtraggio manuale. Ogni domanda include un'opzione "Nessuna delle precedenti", richiedendo ai modelli non solo di riconoscere le informazioni visive corrette, ma anche di identificare quando nessuna risposta fornita è valida. Valutiamo una varietà di MLLM all'avanguardia — inclusi modelli generalisti e specializzati nel ragionamento — su HumbleBench e condividiamo con la comunità risultati e intuizioni preziose. Incorporando il rifiuto esplicito di opzioni false, HumbleBench colma una lacuna fondamentale nei suite di valutazione attuali, fornendo una misura più realistica dell'affidabilità degli MLLM in contesti critici per la sicurezza. Il nostro codice e dataset sono rilasciati pubblicamente e possono essere consultati all'indirizzo https://github.com/maifoundations/HumbleBench.

English

Hallucinations in multimodal large language models (MLLMs) -- where the model generates content inconsistent with the input image -- pose significant risks in real-world applications, from misinformation in visual question answering to unsafe errors in decision-making. Existing benchmarks primarily test recognition accuracy, i.e., evaluating whether models can select the correct answer among distractors. This overlooks an equally critical capability for trustworthy AI: recognizing when none of the provided options are correct, a behavior reflecting epistemic humility. We present HumbleBench, a new hallucination benchmark designed to evaluate MLLMs' ability to reject plausible but incorrect answers across three hallucination types: object, relation, and attribute. Built from a panoptic scene graph dataset, we leverage fine-grained scene graph annotations to extract ground-truth entities and relations, and prompt GPT-4-Turbo to generate multiple-choice questions, followed by a rigorous manual filtering process. Each question includes a "None of the above" option, requiring models not only to recognize correct visual information but also to identify when no provided answer is valid. We evaluate a variety of state-of-the-art MLLMs -- including both general-purpose and specialized reasoning models -- on HumbleBench and share valuable findings and insights with the community. By incorporating explicit false-option rejection, HumbleBench fills a key gap in current evaluation suites, providing a more realistic measure of MLLM reliability in safety-critical settings. Our code and dataset are released publicly and can be accessed at https://github.com/maifoundations/HumbleBench.

Misurare l'Umiltà Epistemica nei Modelli Linguistici Multimodali di Grande Scala

Measuring Epistemic Humility in Multimodal Large Language Models

Abstract

Support