ChatPaper.aiChatPaper

Revisitando a Avaliação de Quantificação de Incerteza em Modelos de Linguagem: Interações Espúrias com Resultados de Viés de Comprimento de Resposta

Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results

April 18, 2025
Autores: Andrea Santilli, Adam Golinski, Michael Kirchhof, Federico Danieli, Arno Blaas, Miao Xiong, Luca Zappella, Sinead Williamson
cs.AI

Resumo

A Quantificação de Incerteza (UQ) em Modelos de Linguagem (LMs) é crucial para melhorar sua segurança e confiabilidade. As avaliações frequentemente utilizam métricas de desempenho como AUROC para avaliar o quão bem os métodos de UQ (por exemplo, probabilidades negativas de sequência) se correlacionam com funções de correção de tarefas (por exemplo, ROUGE-L). Neste artigo, demonstramos que as funções de correção comumente usadas enviesam as avaliações de UQ ao inflar o desempenho de certos métodos de UQ. Avaliamos 7 funções de correção -- desde métricas baseadas em léxico e embeddings até abordagens de LLM-como-juiz -- em 4 conjuntos de dados x 4 modelos x 6 métodos de UQ. Nossa análise revela que vieses de comprimento nos erros dessas funções de correção distorcem as avaliações de UQ ao interagir com vieses de comprimento nos métodos de UQ. Identificamos as abordagens de LLM-como-juiz como uma das escolhas menos enviesadas em relação ao comprimento e, portanto, uma solução potencial para mitigar esses vieses.
English
Uncertainty Quantification (UQ) in Language Models (LMs) is crucial for improving their safety and reliability. Evaluations often use performance metrics like AUROC to assess how well UQ methods (e.g., negative sequence probabilities) correlate with task correctness functions (e.g., ROUGE-L). In this paper, we show that commonly used correctness functions bias UQ evaluations by inflating the performance of certain UQ methods. We evaluate 7 correctness functions -- from lexical-based and embedding-based metrics to LLM-as-a-judge approaches -- across 4 datasets x 4 models x 6 UQ methods. Our analysis reveals that length biases in the errors of these correctness functions distort UQ assessments by interacting with length biases in UQ methods. We identify LLM-as-a-judge approaches as among the least length-biased choices and hence a potential solution to mitigate these biases.

Summary

AI-Generated Summary

PDF12April 21, 2025