Cuando un modelo de lenguaje grande (LLM) muestra aprensión sobre sus respuestas, y cuando su incertidumbre está justificada,
When an LLM is apprehensive about its answers -- and when its uncertainty is justified
March 3, 2025
Autores: Petr Sychev, Andrey Goncharov, Daniil Vyazhev, Edvard Khalafyan, Alexey Zaytsev
cs.AI
Resumen
La estimación de la incertidumbre es crucial para evaluar los Modelos de Lenguaje de Gran Escala (LLMs), especialmente en dominios de alto riesgo donde respuestas incorrectas tienen consecuencias significativas. Numerosos enfoques abordan este problema, aunque se centran en un tipo específico de incertidumbre, ignorando otros. Investigamos qué estimaciones, específicamente la entropía a nivel de token y el modelo como juez (MASJ), serían efectivas para tareas de respuesta a preguntas de opción múltiple en diferentes temas. Nuestros experimentos consideran tres LLMs: Phi-4, Mistral y Qwen, de distintos tamaños que van desde 1.5B hasta 72B, y 14 temas. Mientras que MASJ tiene un rendimiento similar a un predictor de error aleatorio, la entropía de la respuesta predice el error del modelo en dominios dependientes del conocimiento y sirve como un indicador efectivo de la dificultad de la pregunta: para biología, el ROC AUC es 0.73. Esta correlación desaparece en dominios dependientes del razonamiento: para preguntas de matemáticas, el ROC-AUC es 0.55. Más fundamentalmente, descubrimos que la medida de entropía requiere una cantidad de razonamiento. Por lo tanto, la entropía relacionada con la incertidumbre de los datos debería integrarse en los marcos de estimación de incertidumbre, mientras que MASJ necesita refinamiento. Además, las muestras existentes de MMLU-Pro están sesgadas y deberían equilibrar la cantidad de razonamiento requerida para diferentes subdominios, con el fin de proporcionar una evaluación más justa del rendimiento de los LLMs.
English
Uncertainty estimation is crucial for evaluating Large Language Models
(LLMs), particularly in high-stakes domains where incorrect answers result in
significant consequences. Numerous approaches consider this problem, while
focusing on a specific type of uncertainty, ignoring others. We investigate
what estimates, specifically token-wise entropy and model-as-judge (MASJ),
would work for multiple-choice question-answering tasks for different question
topics. Our experiments consider three LLMs: Phi-4, Mistral, and Qwen of
different sizes from 1.5B to 72B and 14 topics. While MASJ performs similarly
to a random error predictor, the response entropy predicts model error in
knowledge-dependent domains and serves as an effective indicator of question
difficulty: for biology ROC AUC is 0.73. This correlation vanishes for the
reasoning-dependent domain: for math questions ROC-AUC is 0.55. More
principally, we found out that the entropy measure required a reasoning amount.
Thus, data-uncertainty related entropy should be integrated within uncertainty
estimates frameworks, while MASJ requires refinement. Moreover, existing
MMLU-Pro samples are biased, and should balance required amount of reasoning
for different subdomains to provide a more fair assessment of LLMs performance.Summary
AI-Generated Summary