ChatPaper.aiChatPaper

Réévaluation de la quantification de l'incertitude dans les modèles de langage : Interactions fallacieuses avec les biais liés à la longueur des réponses

Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results

April 18, 2025
Auteurs: Andrea Santilli, Adam Golinski, Michael Kirchhof, Federico Danieli, Arno Blaas, Miao Xiong, Luca Zappella, Sinead Williamson
cs.AI

Résumé

La quantification de l'incertitude (Uncertainty Quantification, UQ) dans les modèles de langage (Language Models, LMs) est cruciale pour améliorer leur sécurité et leur fiabilité. Les évaluations utilisent souvent des métriques de performance comme l'AUROC pour mesurer dans quelle mesure les méthodes d'UQ (par exemple, les probabilités de séquence négatives) corrèlent avec les fonctions de justesse des tâches (par exemple, ROUGE-L). Dans cet article, nous montrons que les fonctions de justesse couramment utilisées biaisent les évaluations d'UQ en surestimant la performance de certaines méthodes d'UQ. Nous évaluons 7 fonctions de justesse — allant des métriques basées sur la lexicologie et les embeddings aux approches utilisant un LLM comme juge — sur 4 jeux de données x 4 modèles x 6 méthodes d'UQ. Notre analyse révèle que les biais de longueur dans les erreurs de ces fonctions de justesse faussent les évaluations d'UQ en interagissant avec les biais de longueur présents dans les méthodes d'UQ. Nous identifions les approches utilisant un LLM comme juge comme étant parmi les choix les moins biaisés par la longueur, et donc comme une solution potentielle pour atténuer ces biais.
English
Uncertainty Quantification (UQ) in Language Models (LMs) is crucial for improving their safety and reliability. Evaluations often use performance metrics like AUROC to assess how well UQ methods (e.g., negative sequence probabilities) correlate with task correctness functions (e.g., ROUGE-L). In this paper, we show that commonly used correctness functions bias UQ evaluations by inflating the performance of certain UQ methods. We evaluate 7 correctness functions -- from lexical-based and embedding-based metrics to LLM-as-a-judge approaches -- across 4 datasets x 4 models x 6 UQ methods. Our analysis reveals that length biases in the errors of these correctness functions distort UQ assessments by interacting with length biases in UQ methods. We identify LLM-as-a-judge approaches as among the least length-biased choices and hence a potential solution to mitigate these biases.

Summary

AI-Generated Summary

PDF12April 21, 2025