Revisitando a Avaliação de Quantificação de Incerteza em Modelos de Linguagem: Interações Espúrias com Resultados de Viés de Comprimento de Resposta
Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results
April 18, 2025
Autores: Andrea Santilli, Adam Golinski, Michael Kirchhof, Federico Danieli, Arno Blaas, Miao Xiong, Luca Zappella, Sinead Williamson
cs.AI
Resumo
A Quantificação de Incerteza (UQ) em Modelos de Linguagem (LMs) é crucial para melhorar sua segurança e confiabilidade. As avaliações frequentemente utilizam métricas de desempenho como AUROC para avaliar o quão bem os métodos de UQ (por exemplo, probabilidades negativas de sequência) se correlacionam com funções de correção de tarefas (por exemplo, ROUGE-L). Neste artigo, demonstramos que as funções de correção comumente usadas enviesam as avaliações de UQ ao inflar o desempenho de certos métodos de UQ. Avaliamos 7 funções de correção -- desde métricas baseadas em léxico e embeddings até abordagens de LLM-como-juiz -- em 4 conjuntos de dados x 4 modelos x 6 métodos de UQ. Nossa análise revela que vieses de comprimento nos erros dessas funções de correção distorcem as avaliações de UQ ao interagir com vieses de comprimento nos métodos de UQ. Identificamos as abordagens de LLM-como-juiz como uma das escolhas menos enviesadas em relação ao comprimento e, portanto, uma solução potencial para mitigar esses vieses.
English
Uncertainty Quantification (UQ) in Language Models (LMs) is crucial for
improving their safety and reliability. Evaluations often use performance
metrics like AUROC to assess how well UQ methods (e.g., negative sequence
probabilities) correlate with task correctness functions (e.g., ROUGE-L). In
this paper, we show that commonly used correctness functions bias UQ
evaluations by inflating the performance of certain UQ methods. We evaluate 7
correctness functions -- from lexical-based and embedding-based metrics to
LLM-as-a-judge approaches -- across 4 datasets x 4 models x 6 UQ methods. Our
analysis reveals that length biases in the errors of these correctness
functions distort UQ assessments by interacting with length biases in UQ
methods. We identify LLM-as-a-judge approaches as among the least length-biased
choices and hence a potential solution to mitigate these biases.Summary
AI-Generated Summary