Neubewertung der Unsicherheitsquantifizierung in Sprachmodellen: Fehlinterpretationen durch Wechselwirkungen mit der Antwortlängenverzerrung
Revisiting Uncertainty Quantification Evaluation in Language Models: Spurious Interactions with Response Length Bias Results
April 18, 2025
Autoren: Andrea Santilli, Adam Golinski, Michael Kirchhof, Federico Danieli, Arno Blaas, Miao Xiong, Luca Zappella, Sinead Williamson
cs.AI
Zusammenfassung
Die Quantifizierung von Unsicherheit (Uncertainty Quantification, UQ) in Sprachmodellen (Language Models, LMs) ist entscheidend, um deren Sicherheit und Zuverlässigkeit zu verbessern. Bewertungen verwenden häufig Leistungsmetriken wie AUROC, um zu beurteilen, wie gut UQ-Methoden (z. B. negative Sequenzwahrscheinlichkeiten) mit Korrektheitsfunktionen (z. B. ROUGE-L) korrelieren. In diesem Artikel zeigen wir, dass häufig verwendete Korrektheitsfunktionen UQ-Bewertungen verzerren, indem sie die Leistung bestimmter UQ-Methoden überbewerten. Wir evaluieren 7 Korrektheitsfunktionen – von lexikalischen und embedding-basierten Metriken bis hin zu LLM-as-a-Judge-Ansätzen – über 4 Datensätze × 4 Modelle × 6 UQ-Methoden. Unsere Analyse zeigt, dass Längenverzerrungen in den Fehlern dieser Korrektheitsfunktionen die UQ-Bewertungen verzerren, indem sie mit Längenverzerrungen in UQ-Methoden interagieren. Wir identifizieren LLM-as-a-Judge-Ansätze als eine der am wenigsten längenverzerrten Optionen und damit als potenzielle Lösung, um diese Verzerrungen zu mildern.
English
Uncertainty Quantification (UQ) in Language Models (LMs) is crucial for
improving their safety and reliability. Evaluations often use performance
metrics like AUROC to assess how well UQ methods (e.g., negative sequence
probabilities) correlate with task correctness functions (e.g., ROUGE-L). In
this paper, we show that commonly used correctness functions bias UQ
evaluations by inflating the performance of certain UQ methods. We evaluate 7
correctness functions -- from lexical-based and embedding-based metrics to
LLM-as-a-judge approaches -- across 4 datasets x 4 models x 6 UQ methods. Our
analysis reveals that length biases in the errors of these correctness
functions distort UQ assessments by interacting with length biases in UQ
methods. We identify LLM-as-a-judge approaches as among the least length-biased
choices and hence a potential solution to mitigate these biases.Summary
AI-Generated Summary