ChatPaper.aiChatPaper

Rivalutazione della Quantificazione dell'Incertezza nei Modelli Linguistici: Interazioni Spurie con i Risultati del Bias nella Lunghezza della Risposta

Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results

April 18, 2025
Autori: Andrea Santilli, Adam Golinski, Michael Kirchhof, Federico Danieli, Arno Blaas, Miao Xiong, Luca Zappella, Sinead Williamson
cs.AI

Abstract

La Quantificazione dell'Incertezza (Uncertainty Quantification, UQ) nei Modelli Linguistici (Language Models, LMs) è fondamentale per migliorarne la sicurezza e l'affidabilità. Le valutazioni spesso utilizzano metriche di prestazione come l'AUROC per valutare quanto bene i metodi di UQ (ad esempio, le probabilità negative delle sequenze) si correlano con le funzioni di correttezza del compito (ad esempio, ROUGE-L). In questo articolo, dimostriamo che le funzioni di correttezza comunemente utilizzate distorcono le valutazioni di UQ gonfiando le prestazioni di determinati metodi di UQ. Valutiamo 7 funzioni di correttezza -- da metriche basate su lessico e su embedding ad approcci LLM-as-a-judge -- su 4 dataset x 4 modelli x 6 metodi di UQ. La nostra analisi rivela che i pregiudizi legati alla lunghezza negli errori di queste funzioni di correttezza distorcono le valutazioni di UQ interagendo con i pregiudizi legati alla lunghezza nei metodi di UQ. Identifichiamo gli approcci LLM-as-a-judge come tra le scelte meno influenzate dalla lunghezza e quindi una potenziale soluzione per mitigare questi pregiudizi.
English
Uncertainty Quantification (UQ) in Language Models (LMs) is crucial for improving their safety and reliability. Evaluations often use performance metrics like AUROC to assess how well UQ methods (e.g., negative sequence probabilities) correlate with task correctness functions (e.g., ROUGE-L). In this paper, we show that commonly used correctness functions bias UQ evaluations by inflating the performance of certain UQ methods. We evaluate 7 correctness functions -- from lexical-based and embedding-based metrics to LLM-as-a-judge approaches -- across 4 datasets x 4 models x 6 UQ methods. Our analysis reveals that length biases in the errors of these correctness functions distort UQ assessments by interacting with length biases in UQ methods. We identify LLM-as-a-judge approaches as among the least length-biased choices and hence a potential solution to mitigate these biases.

Summary

AI-Generated Summary

PDF12April 21, 2025