ChatPaper.aiChatPaper

Пересмотр оценки количественной оценки неопределенности в языковых моделях: Ложные взаимодействия с систематической ошибкой длины ответа

Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results

April 18, 2025
Авторы: Andrea Santilli, Adam Golinski, Michael Kirchhof, Federico Danieli, Arno Blaas, Miao Xiong, Luca Zappella, Sinead Williamson
cs.AI

Аннотация

Количественная оценка неопределенности (UQ) в языковых моделях (LM) имеет решающее значение для повышения их безопасности и надежности. В ходе оценки часто используются метрики производительности, такие как AUROC, чтобы определить, насколько хорошо методы UQ (например, отрицательные вероятности последовательностей) коррелируют с функциями корректности задачи (например, ROUGE-L). В данной статье мы показываем, что широко используемые функции корректности искажают оценку UQ, завышая производительность определенных методов UQ. Мы оцениваем 7 функций корректности — от лексических и метрик на основе эмбеддингов до подходов с использованием LLM в качестве судьи — на 4 наборах данных × 4 моделях × 6 методах UQ. Наш анализ показывает, что смещения, связанные с длиной ошибок в этих функциях корректности, искажают оценку UQ, взаимодействуя со смещениями по длине в методах UQ. Мы выделяем подходы с использованием LLM в качестве судьи как наименее подверженные смещениям по длине и, следовательно, как потенциальное решение для смягчения этих искажений.
English
Uncertainty Quantification (UQ) in Language Models (LMs) is crucial for improving their safety and reliability. Evaluations often use performance metrics like AUROC to assess how well UQ methods (e.g., negative sequence probabilities) correlate with task correctness functions (e.g., ROUGE-L). In this paper, we show that commonly used correctness functions bias UQ evaluations by inflating the performance of certain UQ methods. We evaluate 7 correctness functions -- from lexical-based and embedding-based metrics to LLM-as-a-judge approaches -- across 4 datasets x 4 models x 6 UQ methods. Our analysis reveals that length biases in the errors of these correctness functions distort UQ assessments by interacting with length biases in UQ methods. We identify LLM-as-a-judge approaches as among the least length-biased choices and hence a potential solution to mitigate these biases.

Summary

AI-Generated Summary

PDF12April 21, 2025