Messung epistemischer Bescheidenheit in multimodalen großen Sprachmodellen
Measuring Epistemic Humility in Multimodal Large Language Models
September 11, 2025
papers.authors: Bingkui Tong, Jiaer Xia, Sifeng Shang, Kaiyang Zhou
cs.AI
papers.abstract
Halluzinationen in multimodalen großen Sprachmodellen (MLLMs) – bei denen das Modell Inhalte erzeugt, die nicht mit dem Eingabebild übereinstimmen – stellen erhebliche Risiken in realen Anwendungen dar, von Fehlinformationen in der visuellen Fragebeantwortung bis hin zu unsicheren Fehlern in der Entscheidungsfindung. Bestehende Benchmarks testen hauptsächlich die Erkennungsgenauigkeit, d.h. sie bewerten, ob Modelle die richtige Antwort unter Ablenkern auswählen können. Dies übersieht eine ebenso kritische Fähigkeit für vertrauenswürdige KI: zu erkennen, wenn keine der bereitgestellten Optionen korrekt ist, ein Verhalten, das epistemische Bescheidenheit widerspiegelt. Wir präsentieren HumbleBench, einen neuen Halluzinations-Benchmark, der entwickelt wurde, um die Fähigkeit von MLLMs zu bewerten, plausible, aber falsche Antworten über drei Halluzinationstypen hinweg abzulehnen: Objekt, Relation und Attribut. Basierend auf einem panoptischen Szenengraphen-Datensatz nutzen wir fein abgestimmte Szenengraphen-Annotationen, um Ground-Truth-Entitäten und -Relationen zu extrahieren, und fordern GPT-4-Turbo auf, Multiple-Choice-Fragen zu generieren, gefolgt von einem rigorosen manuellen Filterprozess. Jede Frage enthält eine Option „Keine der oben genannten“, die von den Modellen nicht nur die Erkennung korrekter visueller Informationen, sondern auch die Identifizierung, wenn keine der bereitgestellten Antworten gültig ist, verlangt. Wir bewerten eine Vielzahl von state-of-the-art MLLMs – sowohl allgemeine als auch spezialisierte Reasoning-Modelle – auf HumbleBench und teilen wertvolle Erkenntnisse und Einsichten mit der Community. Durch die Einbeziehung der expliziten Ablehnung falscher Optionen schließt HumbleBench eine wichtige Lücke in aktuellen Evaluierungssuiten und bietet ein realistischeres Maß für die Zuverlässigkeit von MLLMs in sicherheitskritischen Umgebungen. Unser Code und Datensatz werden öffentlich freigegeben und können unter https://github.com/maifoundations/HumbleBench abgerufen werden.
English
Hallucinations in multimodal large language models (MLLMs) -- where the model
generates content inconsistent with the input image -- pose significant risks
in real-world applications, from misinformation in visual question answering to
unsafe errors in decision-making. Existing benchmarks primarily test
recognition accuracy, i.e., evaluating whether models can select the correct
answer among distractors. This overlooks an equally critical capability for
trustworthy AI: recognizing when none of the provided options are correct, a
behavior reflecting epistemic humility. We present HumbleBench, a new
hallucination benchmark designed to evaluate MLLMs' ability to reject plausible
but incorrect answers across three hallucination types: object, relation, and
attribute. Built from a panoptic scene graph dataset, we leverage fine-grained
scene graph annotations to extract ground-truth entities and relations, and
prompt GPT-4-Turbo to generate multiple-choice questions, followed by a
rigorous manual filtering process. Each question includes a "None of the above"
option, requiring models not only to recognize correct visual information but
also to identify when no provided answer is valid. We evaluate a variety of
state-of-the-art MLLMs -- including both general-purpose and specialized
reasoning models -- on HumbleBench and share valuable findings and insights
with the community. By incorporating explicit false-option rejection,
HumbleBench fills a key gap in current evaluation suites, providing a more
realistic measure of MLLM reliability in safety-critical settings. Our code and
dataset are released publicly and can be accessed at
https://github.com/maifoundations/HumbleBench.