Wanneer een LLM terughoudend is over zijn antwoorden -- en wanneer zijn onzekerheid gerechtvaardigd is
When an LLM is apprehensive about its answers -- and when its uncertainty is justified
March 3, 2025
Auteurs: Petr Sychev, Andrey Goncharov, Daniil Vyazhev, Edvard Khalafyan, Alexey Zaytsev
cs.AI
Samenvatting
Onzekerheidsschatting is cruciaal voor het evalueren van Large Language Models (LLM's), met name in domeinen met hoge inzet waar foute antwoorden aanzienlijke gevolgen hebben. Talrijke benaderingen behandelen dit probleem, maar richten zich vaak op een specifiek type onzekerheid en negeren andere. Wij onderzoeken welke schattingen, specifiek token-gewijze entropie en model-as-judge (MASJ), effectief zouden zijn voor meerkeuzevragen bij verschillende vraagonderwerpen. Onze experimenten omvatten drie LLM's: Phi-4, Mistral en Qwen, met verschillende groottes van 1,5B tot 72B, en 14 onderwerpen. Terwijl MASJ vergelijkbaar presteert met een willekeurige foutvoorspeller, voorspelt de respons-entropie modelfouten in kennisafhankelijke domeinen en dient het als een effectieve indicator van vraagmoeilijkheid: voor biologie is de ROC AUC 0,73. Deze correlatie verdwijnt voor het redeneerafhankelijke domein: voor wiskundevragen is de ROC AUC 0,55. Fundamenteel hebben we ontdekt dat de entropiemeting een bepaalde mate van redenering vereist. Daarom moet data-gerelateerde entropie worden geïntegreerd in onzekerheidsschatting frameworks, terwijl MASJ verfijning behoeft. Bovendien zijn bestaande MMLU-Pro-steekproeven bevooroordeeld en zouden ze de benodigde hoeveelheid redenering voor verschillende subdomeinen in evenwicht moeten brengen om een eerlijkere beoordeling van de prestaties van LLM's te bieden.
English
Uncertainty estimation is crucial for evaluating Large Language Models
(LLMs), particularly in high-stakes domains where incorrect answers result in
significant consequences. Numerous approaches consider this problem, while
focusing on a specific type of uncertainty, ignoring others. We investigate
what estimates, specifically token-wise entropy and model-as-judge (MASJ),
would work for multiple-choice question-answering tasks for different question
topics. Our experiments consider three LLMs: Phi-4, Mistral, and Qwen of
different sizes from 1.5B to 72B and 14 topics. While MASJ performs similarly
to a random error predictor, the response entropy predicts model error in
knowledge-dependent domains and serves as an effective indicator of question
difficulty: for biology ROC AUC is 0.73. This correlation vanishes for the
reasoning-dependent domain: for math questions ROC-AUC is 0.55. More
principally, we found out that the entropy measure required a reasoning amount.
Thus, data-uncertainty related entropy should be integrated within uncertainty
estimates frameworks, while MASJ requires refinement. Moreover, existing
MMLU-Pro samples are biased, and should balance required amount of reasoning
for different subdomains to provide a more fair assessment of LLMs performance.Summary
AI-Generated Summary