LLMが自身の回答に対して不安を感じている場合、そしてその不確実性が正当である場合
When an LLM is apprehensive about its answers -- and when its uncertainty is justified
March 3, 2025
著者: Petr Sychev, Andrey Goncharov, Daniil Vyazhev, Edvard Khalafyan, Alexey Zaytsev
cs.AI
要旨
不確実性の推定は、大規模言語モデル(LLM)を評価する上で極めて重要であり、特に誤った回答が重大な結果を招く高リスク領域においてはその重要性が増す。この問題に取り組む多くのアプローチは、特定の種類の不確実性に焦点を当てる一方で、他の種類を無視している。本研究では、トークン単位のエントロピーとモデル自身による判定(MASJ)という推定方法が、異なる質問トピックに対する多肢選択問題解答タスクにおいてどのように機能するかを調査した。実験では、1.5Bから72Bまでの異なるサイズの3つのLLM(Phi-4、Mistral、Qwen)と14のトピックを検討した。MASJはランダムな誤り予測器と同程度の性能を示す一方で、応答エントロピーは知識依存領域におけるモデルの誤りを予測し、質問の難易度の有効な指標として機能した:生物学ではROC AUCが0.73であった。しかし、この相関は推論依存領域では消失し、数学問題ではROC-AUCが0.55であった。より根本的には、エントロピー測定には一定量の推論が必要であることが判明した。したがって、データ不確実性に関連するエントロピーは不確実性推定フレームワークに統合されるべきであり、MASJは改良が必要である。さらに、既存のMMLU-Proサンプルにはバイアスがあり、異なるサブドメインに必要な推論量をバランスさせることで、LLMの性能をより公平に評価できるようにすべきである。
English
Uncertainty estimation is crucial for evaluating Large Language Models
(LLMs), particularly in high-stakes domains where incorrect answers result in
significant consequences. Numerous approaches consider this problem, while
focusing on a specific type of uncertainty, ignoring others. We investigate
what estimates, specifically token-wise entropy and model-as-judge (MASJ),
would work for multiple-choice question-answering tasks for different question
topics. Our experiments consider three LLMs: Phi-4, Mistral, and Qwen of
different sizes from 1.5B to 72B and 14 topics. While MASJ performs similarly
to a random error predictor, the response entropy predicts model error in
knowledge-dependent domains and serves as an effective indicator of question
difficulty: for biology ROC AUC is 0.73. This correlation vanishes for the
reasoning-dependent domain: for math questions ROC-AUC is 0.55. More
principally, we found out that the entropy measure required a reasoning amount.
Thus, data-uncertainty related entropy should be integrated within uncertainty
estimates frameworks, while MASJ requires refinement. Moreover, existing
MMLU-Pro samples are biased, and should balance required amount of reasoning
for different subdomains to provide a more fair assessment of LLMs performance.Summary
AI-Generated Summary