Quando um LLM está apreensivo sobre suas respostas — e quando sua incerteza é justificada
When an LLM is apprehensive about its answers -- and when its uncertainty is justified
March 3, 2025
Autores: Petr Sychev, Andrey Goncharov, Daniil Vyazhev, Edvard Khalafyan, Alexey Zaytsev
cs.AI
Resumo
A estimativa de incerteza é crucial para avaliar Modelos de Linguagem de Grande Escala (LLMs), especialmente em domínios de alto risco, onde respostas incorretas resultam em consequências significativas. Várias abordagens consideram esse problema, mas se concentram em um tipo específico de incerteza, ignorando outros. Investigamos quais estimativas, especificamente a entropia por token e o modelo-como-juiz (MASJ), seriam eficazes para tarefas de resposta a perguntas de múltipla escolha em diferentes tópicos. Nossos experimentos consideram três LLMs: Phi-4, Mistral e Qwen, de diferentes tamanhos, variando de 1,5B a 72B, e 14 tópicos. Enquanto o MASJ tem um desempenho semelhante a um preditor de erro aleatório, a entropia da resposta prevê o erro do modelo em domínios dependentes de conhecimento e serve como um indicador eficaz da dificuldade da questão: para biologia, a ROC AUC é 0,73. Essa correlação desaparece no domínio dependente de raciocínio: para questões de matemática, a ROC-AUC é 0,55. Mais fundamentalmente, descobrimos que a medida de entropia exigia uma quantidade de raciocínio. Portanto, a entropia relacionada à incerteza dos dados deve ser integrada em frameworks de estimativa de incerteza, enquanto o MASJ requer refinamento. Além disso, as amostras existentes do MMLU-Pro são tendenciosas e devem equilibrar a quantidade de raciocínio necessária para diferentes subdomínios, a fim de fornecer uma avaliação mais justa do desempenho dos LLMs.
English
Uncertainty estimation is crucial for evaluating Large Language Models
(LLMs), particularly in high-stakes domains where incorrect answers result in
significant consequences. Numerous approaches consider this problem, while
focusing on a specific type of uncertainty, ignoring others. We investigate
what estimates, specifically token-wise entropy and model-as-judge (MASJ),
would work for multiple-choice question-answering tasks for different question
topics. Our experiments consider three LLMs: Phi-4, Mistral, and Qwen of
different sizes from 1.5B to 72B and 14 topics. While MASJ performs similarly
to a random error predictor, the response entropy predicts model error in
knowledge-dependent domains and serves as an effective indicator of question
difficulty: for biology ROC AUC is 0.73. This correlation vanishes for the
reasoning-dependent domain: for math questions ROC-AUC is 0.55. More
principally, we found out that the entropy measure required a reasoning amount.
Thus, data-uncertainty related entropy should be integrated within uncertainty
estimates frameworks, while MASJ requires refinement. Moreover, existing
MMLU-Pro samples are biased, and should balance required amount of reasoning
for different subdomains to provide a more fair assessment of LLMs performance.Summary
AI-Generated Summary