ChatPaper.aiChatPaper

Quando un LLM è incerto riguardo alle sue risposte -- e quando la sua incertezza è giustificata

When an LLM is apprehensive about its answers -- and when its uncertainty is justified

March 3, 2025
Autori: Petr Sychev, Andrey Goncharov, Daniil Vyazhev, Edvard Khalafyan, Alexey Zaytsev
cs.AI

Abstract

La stima dell'incertezza è cruciale per valutare i Modelli Linguistici di Grande Dimensione (LLM), specialmente in domini ad alto rischio dove risposte errate comportano conseguenze significative. Numerosi approcci affrontano questo problema, concentrandosi su un tipo specifico di incertezza e trascurandone altri. Investigiamo quali stime, in particolare l'entropia a livello di token e il modello come giudice (MASJ), siano efficaci per compiti di risposta a domande a scelta multipla su diversi argomenti. I nostri esperimenti considerano tre LLM: Phi-4, Mistral e Qwen, di dimensioni variabili da 1,5B a 72B, e 14 argomenti. Mentre il MASJ si comporta in modo simile a un predittore di errore casuale, l'entropia della risposta predice l'errore del modello in domini dipendenti dalla conoscenza e funge da indicatore efficace della difficoltà della domanda: per la biologia, l'ROC AUC è 0,73. Questa correlazione scompare per i domini dipendenti dal ragionamento: per le domande di matematica, l'ROC AUC è 0,55. Più fondamentalmente, abbiamo scoperto che la misura dell'entropia richiede una certa quantità di ragionamento. Pertanto, l'entropia legata all'incertezza dei dati dovrebbe essere integrata nei framework di stima dell'incertezza, mentre il MASJ necessita di affinamenti. Inoltre, i campioni esistenti di MMLU-Pro sono distorti e dovrebbero bilanciare la quantità di ragionamento richiesta per diversi sottodomini per fornire una valutazione più equa delle prestazioni degli LLM.
English
Uncertainty estimation is crucial for evaluating Large Language Models (LLMs), particularly in high-stakes domains where incorrect answers result in significant consequences. Numerous approaches consider this problem, while focusing on a specific type of uncertainty, ignoring others. We investigate what estimates, specifically token-wise entropy and model-as-judge (MASJ), would work for multiple-choice question-answering tasks for different question topics. Our experiments consider three LLMs: Phi-4, Mistral, and Qwen of different sizes from 1.5B to 72B and 14 topics. While MASJ performs similarly to a random error predictor, the response entropy predicts model error in knowledge-dependent domains and serves as an effective indicator of question difficulty: for biology ROC AUC is 0.73. This correlation vanishes for the reasoning-dependent domain: for math questions ROC-AUC is 0.55. More principally, we found out that the entropy measure required a reasoning amount. Thus, data-uncertainty related entropy should be integrated within uncertainty estimates frameworks, while MASJ requires refinement. Moreover, existing MMLU-Pro samples are biased, and should balance required amount of reasoning for different subdomains to provide a more fair assessment of LLMs performance.

Summary

AI-Generated Summary

PDF212March 4, 2025