Herziening van de evaluatie van onzekerheidskwantificering in taalmodelen: Spurious interacties met biasresultaten door responslengte
Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results
April 18, 2025
Auteurs: Andrea Santilli, Adam Golinski, Michael Kirchhof, Federico Danieli, Arno Blaas, Miao Xiong, Luca Zappella, Sinead Williamson
cs.AI
Samenvatting
Onzekerheidskwantificering (UQ) in taalmodelen (LMs) is cruciaal voor het verbeteren van hun veiligheid en betrouwbaarheid. Evaluaties maken vaak gebruik van prestatiemetrics zoals AUROC om te beoordelen hoe goed UQ-methoden (bijvoorbeeld negatieve sequentiekansen) correleren met taakcorrectheidsfuncties (bijvoorbeeld ROUGE-L). In dit artikel tonen we aan dat veelgebruikte correctheidsfuncties UQ-evaluaties bevooroordelen door de prestaties van bepaalde UQ-methoden te overdrijven. We evalueren 7 correctheidsfuncties – van lexicale en op embeddings gebaseerde metrics tot LLM-als-rechterbenaderingen – over 4 datasets x 4 modellen x 6 UQ-methoden. Onze analyse onthult dat lengtevooroordelen in de fouten van deze correctheidsfuncties UQ-beoordelingen verstoren door te interageren met lengtevooroordelen in UQ-methoden. We identificeren LLM-als-rechterbenaderingen als een van de minst lengtebevooroordeelde keuzes en daarmee een mogelijke oplossing om deze vooroordelen te verminderen.
English
Uncertainty Quantification (UQ) in Language Models (LMs) is crucial for
improving their safety and reliability. Evaluations often use performance
metrics like AUROC to assess how well UQ methods (e.g., negative sequence
probabilities) correlate with task correctness functions (e.g., ROUGE-L). In
this paper, we show that commonly used correctness functions bias UQ
evaluations by inflating the performance of certain UQ methods. We evaluate 7
correctness functions -- from lexical-based and embedding-based metrics to
LLM-as-a-judge approaches -- across 4 datasets x 4 models x 6 UQ methods. Our
analysis reveals that length biases in the errors of these correctness
functions distort UQ assessments by interacting with length biases in UQ
methods. We identify LLM-as-a-judge approaches as among the least length-biased
choices and hence a potential solution to mitigate these biases.Summary
AI-Generated Summary