Lorsqu'un modèle de langage (LLM) exprime des réserves quant à ses réponses -- et que son incertitude est justifiée
When an LLM is apprehensive about its answers -- and when its uncertainty is justified
March 3, 2025
Auteurs: Petr Sychev, Andrey Goncharov, Daniil Vyazhev, Edvard Khalafyan, Alexey Zaytsev
cs.AI
Résumé
L'estimation de l'incertitude est cruciale pour évaluer les modèles de langage de grande taille (LLMs), en particulier dans des domaines à enjeux élevés où des réponses incorrectes entraînent des conséquences significatives. De nombreuses approches abordent ce problème tout en se concentrant sur un type spécifique d'incertitude, en ignorant les autres. Nous étudions quelles estimations, notamment l'entropie par token et le modèle-comme-juge (MASJ), seraient efficaces pour des tâches de questions à choix multiples portant sur différents sujets. Nos expériences considèrent trois LLMs : Phi-4, Mistral et Qwen, de tailles variées allant de 1,5B à 72B, ainsi que 14 sujets. Alors que le MASJ performe de manière similaire à un prédicteur d'erreur aléatoire, l'entropie des réponses prédit l'erreur du modèle dans les domaines dépendants des connaissances et sert d'indicateur efficace de la difficulté des questions : pour la biologie, l'AUC ROC est de 0,73. Cette corrélation disparaît pour le domaine dépendant du raisonnement : pour les questions de mathématiques, l'AUC ROC est de 0,55. Plus fondamentalement, nous avons découvert que la mesure d'entropie nécessitait une certaine quantité de raisonnement. Ainsi, l'entropie liée à l'incertitude des données devrait être intégrée dans les cadres d'estimation de l'incertitude, tandis que le MASJ nécessite des améliorations. De plus, les échantillons existants de MMLU-Pro sont biaisés et devraient équilibrer la quantité de raisonnement requise pour différents sous-domaines afin de fournir une évaluation plus équitable de la performance des LLMs.
English
Uncertainty estimation is crucial for evaluating Large Language Models
(LLMs), particularly in high-stakes domains where incorrect answers result in
significant consequences. Numerous approaches consider this problem, while
focusing on a specific type of uncertainty, ignoring others. We investigate
what estimates, specifically token-wise entropy and model-as-judge (MASJ),
would work for multiple-choice question-answering tasks for different question
topics. Our experiments consider three LLMs: Phi-4, Mistral, and Qwen of
different sizes from 1.5B to 72B and 14 topics. While MASJ performs similarly
to a random error predictor, the response entropy predicts model error in
knowledge-dependent domains and serves as an effective indicator of question
difficulty: for biology ROC AUC is 0.73. This correlation vanishes for the
reasoning-dependent domain: for math questions ROC-AUC is 0.55. More
principally, we found out that the entropy measure required a reasoning amount.
Thus, data-uncertainty related entropy should be integrated within uncertainty
estimates frameworks, while MASJ requires refinement. Moreover, existing
MMLU-Pro samples are biased, and should balance required amount of reasoning
for different subdomains to provide a more fair assessment of LLMs performance.Summary
AI-Generated Summary