ChatPaper.aiChatPaper

Reevaluación de la Cuantificación de Incertidumbre en Modelos de Lenguaje: Interacciones Espurias con el Sesgo de Longitud de Respuesta

Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results

April 18, 2025
Autores: Andrea Santilli, Adam Golinski, Michael Kirchhof, Federico Danieli, Arno Blaas, Miao Xiong, Luca Zappella, Sinead Williamson
cs.AI

Resumen

La Cuantificación de Incertidumbre (UQ, por sus siglas en inglés) en los Modelos de Lenguaje (LMs) es crucial para mejorar su seguridad y confiabilidad. Las evaluaciones suelen utilizar métricas de rendimiento como AUROC para determinar qué tan bien los métodos de UQ (por ejemplo, las probabilidades negativas de secuencia) se correlacionan con las funciones de corrección de tareas (por ejemplo, ROUGE-L). En este artículo, demostramos que las funciones de corrección comúnmente utilizadas sesgan las evaluaciones de UQ al inflar el rendimiento de ciertos métodos de UQ. Evaluamos 7 funciones de corrección —desde métricas basadas en léxico y embeddings hasta enfoques de LLM-como-juez— en 4 conjuntos de datos x 4 modelos x 6 métodos de UQ. Nuestro análisis revela que los sesgos de longitud en los errores de estas funciones de corrección distorsionan las evaluaciones de UQ al interactuar con los sesgos de longitud en los métodos de UQ. Identificamos los enfoques de LLM-como-juez como una de las opciones menos sesgadas por la longitud y, por lo tanto, como una solución potencial para mitigar estos sesgos.
English
Uncertainty Quantification (UQ) in Language Models (LMs) is crucial for improving their safety and reliability. Evaluations often use performance metrics like AUROC to assess how well UQ methods (e.g., negative sequence probabilities) correlate with task correctness functions (e.g., ROUGE-L). In this paper, we show that commonly used correctness functions bias UQ evaluations by inflating the performance of certain UQ methods. We evaluate 7 correctness functions -- from lexical-based and embedding-based metrics to LLM-as-a-judge approaches -- across 4 datasets x 4 models x 6 UQ methods. Our analysis reveals that length biases in the errors of these correctness functions distort UQ assessments by interacting with length biases in UQ methods. We identify LLM-as-a-judge approaches as among the least length-biased choices and hence a potential solution to mitigate these biases.

Summary

AI-Generated Summary

PDF12April 21, 2025