Messung epistemischer Bescheidenheit in multimodalen großen Sprachmodellen

papers.abstract

Halluzinationen in multimodalen großen Sprachmodellen (MLLMs) – bei denen das Modell Inhalte erzeugt, die nicht mit dem Eingabebild übereinstimmen – stellen erhebliche Risiken in realen Anwendungen dar, von Fehlinformationen in der visuellen Fragebeantwortung bis hin zu unsicheren Fehlern in der Entscheidungsfindung. Bestehende Benchmarks testen hauptsächlich die Erkennungsgenauigkeit, d.h. sie bewerten, ob Modelle die richtige Antwort unter Ablenkern auswählen können. Dies übersieht eine ebenso kritische Fähigkeit für vertrauenswürdige KI: zu erkennen, wenn keine der bereitgestellten Optionen korrekt ist, ein Verhalten, das epistemische Bescheidenheit widerspiegelt. Wir präsentieren HumbleBench, einen neuen Halluzinations-Benchmark, der entwickelt wurde, um die Fähigkeit von MLLMs zu bewerten, plausible, aber falsche Antworten über drei Halluzinationstypen hinweg abzulehnen: Objekt, Relation und Attribut. Basierend auf einem panoptischen Szenengraphen-Datensatz nutzen wir fein abgestimmte Szenengraphen-Annotationen, um Ground-Truth-Entitäten und -Relationen zu extrahieren, und fordern GPT-4-Turbo auf, Multiple-Choice-Fragen zu generieren, gefolgt von einem rigorosen manuellen Filterprozess. Jede Frage enthält eine Option „Keine der oben genannten“, die von den Modellen nicht nur die Erkennung korrekter visueller Informationen, sondern auch die Identifizierung, wenn keine der bereitgestellten Antworten gültig ist, verlangt. Wir bewerten eine Vielzahl von state-of-the-art MLLMs – sowohl allgemeine als auch spezialisierte Reasoning-Modelle – auf HumbleBench und teilen wertvolle Erkenntnisse und Einsichten mit der Community. Durch die Einbeziehung der expliziten Ablehnung falscher Optionen schließt HumbleBench eine wichtige Lücke in aktuellen Evaluierungssuiten und bietet ein realistischeres Maß für die Zuverlässigkeit von MLLMs in sicherheitskritischen Umgebungen. Unser Code und Datensatz werden öffentlich freigegeben und können unter https://github.com/maifoundations/HumbleBench abgerufen werden.

English

Hallucinations in multimodal large language models (MLLMs) -- where the model generates content inconsistent with the input image -- pose significant risks in real-world applications, from misinformation in visual question answering to unsafe errors in decision-making. Existing benchmarks primarily test recognition accuracy, i.e., evaluating whether models can select the correct answer among distractors. This overlooks an equally critical capability for trustworthy AI: recognizing when none of the provided options are correct, a behavior reflecting epistemic humility. We present HumbleBench, a new hallucination benchmark designed to evaluate MLLMs' ability to reject plausible but incorrect answers across three hallucination types: object, relation, and attribute. Built from a panoptic scene graph dataset, we leverage fine-grained scene graph annotations to extract ground-truth entities and relations, and prompt GPT-4-Turbo to generate multiple-choice questions, followed by a rigorous manual filtering process. Each question includes a "None of the above" option, requiring models not only to recognize correct visual information but also to identify when no provided answer is valid. We evaluate a variety of state-of-the-art MLLMs -- including both general-purpose and specialized reasoning models -- on HumbleBench and share valuable findings and insights with the community. By incorporating explicit false-option rejection, HumbleBench fills a key gap in current evaluation suites, providing a more realistic measure of MLLM reliability in safety-critical settings. Our code and dataset are released publicly and can be accessed at https://github.com/maifoundations/HumbleBench.

Messung epistemischer Bescheidenheit in multimodalen großen Sprachmodellen

Measuring Epistemic Humility in Multimodal Large Language Models

papers.abstract

Support