ChatPaper.aiChatPaper

Mesure de l'humilité épistémique dans les modèles de langage multimodaux de grande envergure

Measuring Epistemic Humility in Multimodal Large Language Models

September 11, 2025
papers.authors: Bingkui Tong, Jiaer Xia, Sifeng Shang, Kaiyang Zhou
cs.AI

papers.abstract

Les hallucinations dans les modèles de langage multimodaux de grande taille (MLLMs) -- où le modèle génère un contenu incohérent avec l'image d'entrée -- posent des risques significatifs dans les applications réelles, allant de la désinformation dans les systèmes de réponse visuelle à des erreurs dangereuses dans la prise de décision. Les benchmarks existants testent principalement la précision de reconnaissance, c'est-à-dire si les modèles peuvent sélectionner la bonne réponse parmi des distracteurs. Cela néglige une capacité tout aussi critique pour une IA digne de confiance : reconnaître lorsqu'aucune des options proposées n'est correcte, un comportement reflétant l'humilité épistémique. Nous présentons HumbleBench, un nouveau benchmark d'hallucination conçu pour évaluer la capacité des MLLMs à rejeter des réponses plausibles mais incorrectes à travers trois types d'hallucinations : objet, relation et attribut. Construit à partir d'un ensemble de données de graphes scéniques panoptiques, nous exploitons des annotations fines de graphes scéniques pour extraire des entités et des relations de référence, et incitons GPT-4-Turbo à générer des questions à choix multiples, suivies d'un processus rigoureux de filtrage manuel. Chaque question inclut une option "Aucune des réponses ci-dessus", exigeant des modèles non seulement de reconnaître les informations visuelles correctes, mais aussi d'identifier lorsqu'aucune réponse fournie n'est valide. Nous évaluons une variété de MLLMs de pointe -- incluant à la fois des modèles généralistes et spécialisés dans le raisonnement -- sur HumbleBench et partageons des découvertes et des insights précieux avec la communauté. En incorporant le rejet explicite de fausses options, HumbleBench comble une lacune clé dans les suites d'évaluation actuelles, fournissant une mesure plus réaliste de la fiabilité des MLLMs dans des contextes critiques pour la sécurité. Notre code et notre ensemble de données sont publiés publiquement et peuvent être consultés à l'adresse https://github.com/maifoundations/HumbleBench.
English
Hallucinations in multimodal large language models (MLLMs) -- where the model generates content inconsistent with the input image -- pose significant risks in real-world applications, from misinformation in visual question answering to unsafe errors in decision-making. Existing benchmarks primarily test recognition accuracy, i.e., evaluating whether models can select the correct answer among distractors. This overlooks an equally critical capability for trustworthy AI: recognizing when none of the provided options are correct, a behavior reflecting epistemic humility. We present HumbleBench, a new hallucination benchmark designed to evaluate MLLMs' ability to reject plausible but incorrect answers across three hallucination types: object, relation, and attribute. Built from a panoptic scene graph dataset, we leverage fine-grained scene graph annotations to extract ground-truth entities and relations, and prompt GPT-4-Turbo to generate multiple-choice questions, followed by a rigorous manual filtering process. Each question includes a "None of the above" option, requiring models not only to recognize correct visual information but also to identify when no provided answer is valid. We evaluate a variety of state-of-the-art MLLMs -- including both general-purpose and specialized reasoning models -- on HumbleBench and share valuable findings and insights with the community. By incorporating explicit false-option rejection, HumbleBench fills a key gap in current evaluation suites, providing a more realistic measure of MLLM reliability in safety-critical settings. Our code and dataset are released publicly and can be accessed at https://github.com/maifoundations/HumbleBench.
PDF63September 16, 2025