Het meten van epistemische bescheidenheid in multimodale grote taalmodellen
Measuring Epistemic Humility in Multimodal Large Language Models
September 11, 2025
Auteurs: Bingkui Tong, Jiaer Xia, Sifeng Shang, Kaiyang Zhou
cs.AI
Samenvatting
Hallucinaties in multimodale grote taalmodellen (MLLMs) -- waarbij het model inhoud genereert die inconsistent is met de invoerafbeelding -- vormen aanzienlijke risico's in praktische toepassingen, van desinformatie in visuele vraagbeantwoording tot onveilige fouten in besluitvorming. Bestaande benchmarks testen voornamelijk de herkenningsnauwkeurigheid, d.w.z. of modellen het juiste antwoord kunnen selecteren tussen afleiders. Dit negeert een even kritieke vaardigheid voor betrouwbare AI: herkennen wanneer geen van de gegeven opties correct is, een gedrag dat epistemische bescheidenheid weerspiegelt. Wij presenteren HumbleBench, een nieuwe hallucinatiebenchmark ontworpen om het vermogen van MLLMs te evalueren om plausibele maar incorrecte antwoorden af te wijzen over drie hallucinatietypes: object, relatie en attribuut. Gebouwd vanuit een panoptische scènegrafiekdataset, benutten we gedetailleerde scènegrafiekaanwijzingen om grondwaarheid-entiteiten en -relaties te extraheren, en vragen we GPT-4-Turbo om meerkeuzevragen te genereren, gevolgd door een rigoureus handmatig filterproces. Elke vraag bevat een "Geen van bovenstaande" optie, wat vereist dat modellen niet alleen correcte visuele informatie herkennen, maar ook identificeren wanneer geen van de gegeven antwoorden geldig is. We evalueren een verscheidenheid aan state-of-the-art MLLMs -- inclusief zowel algemene als gespecialiseerde redeneermodellen -- op HumbleBench en delen waardevolle bevindingen en inzichten met de gemeenschap. Door expliciete afwijzing van foute opties te incorporeren, vult HumbleBench een belangrijk gat in huidige evaluatiesuites, en biedt het een realistischer maatstaf voor de betrouwbaarheid van MLLMs in veiligheidskritieke situaties. Onze code en dataset zijn openbaar vrijgegeven en kunnen worden geraadpleegd op https://github.com/maifoundations/HumbleBench.
English
Hallucinations in multimodal large language models (MLLMs) -- where the model
generates content inconsistent with the input image -- pose significant risks
in real-world applications, from misinformation in visual question answering to
unsafe errors in decision-making. Existing benchmarks primarily test
recognition accuracy, i.e., evaluating whether models can select the correct
answer among distractors. This overlooks an equally critical capability for
trustworthy AI: recognizing when none of the provided options are correct, a
behavior reflecting epistemic humility. We present HumbleBench, a new
hallucination benchmark designed to evaluate MLLMs' ability to reject plausible
but incorrect answers across three hallucination types: object, relation, and
attribute. Built from a panoptic scene graph dataset, we leverage fine-grained
scene graph annotations to extract ground-truth entities and relations, and
prompt GPT-4-Turbo to generate multiple-choice questions, followed by a
rigorous manual filtering process. Each question includes a "None of the above"
option, requiring models not only to recognize correct visual information but
also to identify when no provided answer is valid. We evaluate a variety of
state-of-the-art MLLMs -- including both general-purpose and specialized
reasoning models -- on HumbleBench and share valuable findings and insights
with the community. By incorporating explicit false-option rejection,
HumbleBench fills a key gap in current evaluation suites, providing a more
realistic measure of MLLM reliability in safety-critical settings. Our code and
dataset are released publicly and can be accessed at
https://github.com/maifoundations/HumbleBench.