Quando un LLM è incerto riguardo alle sue risposte -- e quando la sua incertezza è giustificata
When an LLM is apprehensive about its answers -- and when its uncertainty is justified
March 3, 2025
Autori: Petr Sychev, Andrey Goncharov, Daniil Vyazhev, Edvard Khalafyan, Alexey Zaytsev
cs.AI
Abstract
La stima dell'incertezza è cruciale per valutare i Modelli Linguistici di Grande Dimensione (LLM), specialmente in domini ad alto rischio dove risposte errate comportano conseguenze significative. Numerosi approcci affrontano questo problema, concentrandosi su un tipo specifico di incertezza e trascurandone altri. Investigiamo quali stime, in particolare l'entropia a livello di token e il modello come giudice (MASJ), siano efficaci per compiti di risposta a domande a scelta multipla su diversi argomenti. I nostri esperimenti considerano tre LLM: Phi-4, Mistral e Qwen, di dimensioni variabili da 1,5B a 72B, e 14 argomenti. Mentre il MASJ si comporta in modo simile a un predittore di errore casuale, l'entropia della risposta predice l'errore del modello in domini dipendenti dalla conoscenza e funge da indicatore efficace della difficoltà della domanda: per la biologia, l'ROC AUC è 0,73. Questa correlazione scompare per i domini dipendenti dal ragionamento: per le domande di matematica, l'ROC AUC è 0,55. Più fondamentalmente, abbiamo scoperto che la misura dell'entropia richiede una certa quantità di ragionamento. Pertanto, l'entropia legata all'incertezza dei dati dovrebbe essere integrata nei framework di stima dell'incertezza, mentre il MASJ necessita di affinamenti. Inoltre, i campioni esistenti di MMLU-Pro sono distorti e dovrebbero bilanciare la quantità di ragionamento richiesta per diversi sottodomini per fornire una valutazione più equa delle prestazioni degli LLM.
English
Uncertainty estimation is crucial for evaluating Large Language Models
(LLMs), particularly in high-stakes domains where incorrect answers result in
significant consequences. Numerous approaches consider this problem, while
focusing on a specific type of uncertainty, ignoring others. We investigate
what estimates, specifically token-wise entropy and model-as-judge (MASJ),
would work for multiple-choice question-answering tasks for different question
topics. Our experiments consider three LLMs: Phi-4, Mistral, and Qwen of
different sizes from 1.5B to 72B and 14 topics. While MASJ performs similarly
to a random error predictor, the response entropy predicts model error in
knowledge-dependent domains and serves as an effective indicator of question
difficulty: for biology ROC AUC is 0.73. This correlation vanishes for the
reasoning-dependent domain: for math questions ROC-AUC is 0.55. More
principally, we found out that the entropy measure required a reasoning amount.
Thus, data-uncertainty related entropy should be integrated within uncertainty
estimates frameworks, while MASJ requires refinement. Moreover, existing
MMLU-Pro samples are biased, and should balance required amount of reasoning
for different subdomains to provide a more fair assessment of LLMs performance.Summary
AI-Generated Summary