ChatPaper.aiChatPaper

マルチモーダル大規模言語モデルにおける認識論的謙虚さの測定

Measuring Epistemic Humility in Multimodal Large Language Models

September 11, 2025
著者: Bingkui Tong, Jiaer Xia, Sifeng Shang, Kaiyang Zhou
cs.AI

要旨

マルチモーダル大規模言語モデル(MLLMs)における幻覚(Hallucination)――モデルが入力画像と矛盾する内容を生成する現象――は、現実世界のアプリケーションにおいて重大なリスクをもたらします。視覚的質問応答における誤情報から意思決定における危険なエラーまで、その影響は多岐にわたります。既存のベンチマークは主に認識精度をテストするもので、すなわち、モデルが選択肢の中から正しい答えを選べるかどうかを評価します。しかし、信頼できるAIにとって同等に重要な能力――提供された選択肢のいずれも正しくない場合を認識する、認識論的謙虚さ(epistemic humility)を反映する振る舞い――を見落としています。本論文では、HumbleBenchという新しい幻覚ベンチマークを提案します。これは、MLLMsが3種類の幻覚(物体、関係、属性)において、もっともらしいが誤った答えを拒否する能力を評価するために設計されています。パノプティックシーングラフデータセットを基に構築されたHumbleBenchでは、細粒度のシーングラフアノテーションを活用してグラウンドトゥルースのエンティティと関係を抽出し、GPT-4-Turboに多肢選択問題を生成させた後、厳格な手動フィルタリングプロセスを経ています。各問題には「None of the above(どれも該当しない)」という選択肢が含まれており、モデルは正しい視覚情報を認識するだけでなく、提供された答えのいずれも有効でない場合を識別する必要があります。我々は、汎用モデルから専門的な推論モデルまで、さまざまな最先端のMLLMsをHumbleBenchで評価し、貴重な知見をコミュニティと共有します。明示的な誤選択肢拒否を組み込むことで、HumbleBenchは現在の評価スイートにおける重要なギャップを埋め、安全が重要な設定におけるMLLMの信頼性をより現実的に測定します。我々のコードとデータセットは公開されており、https://github.com/maifoundations/HumbleBench からアクセスできます。
English
Hallucinations in multimodal large language models (MLLMs) -- where the model generates content inconsistent with the input image -- pose significant risks in real-world applications, from misinformation in visual question answering to unsafe errors in decision-making. Existing benchmarks primarily test recognition accuracy, i.e., evaluating whether models can select the correct answer among distractors. This overlooks an equally critical capability for trustworthy AI: recognizing when none of the provided options are correct, a behavior reflecting epistemic humility. We present HumbleBench, a new hallucination benchmark designed to evaluate MLLMs' ability to reject plausible but incorrect answers across three hallucination types: object, relation, and attribute. Built from a panoptic scene graph dataset, we leverage fine-grained scene graph annotations to extract ground-truth entities and relations, and prompt GPT-4-Turbo to generate multiple-choice questions, followed by a rigorous manual filtering process. Each question includes a "None of the above" option, requiring models not only to recognize correct visual information but also to identify when no provided answer is valid. We evaluate a variety of state-of-the-art MLLMs -- including both general-purpose and specialized reasoning models -- on HumbleBench and share valuable findings and insights with the community. By incorporating explicit false-option rejection, HumbleBench fills a key gap in current evaluation suites, providing a more realistic measure of MLLM reliability in safety-critical settings. Our code and dataset are released publicly and can be accessed at https://github.com/maifoundations/HumbleBench.
PDF63September 16, 2025