Stil über Substanz: Fehlermodi von LLM-Richtern beim Abgleich von Benchmarking
Style over Substance: Failure Modes of LLM Judges in Alignment Benchmarking
September 23, 2024
Autoren: Benjamin Feuer, Micah Goldblum, Teresa Datta, Sanjana Nambiar, Raz Besaleli, Samuel Dooley, Max Cembalest, John P. Dickerson
cs.AI
Zusammenfassung
Die Veröffentlichung von ChatGPT im November 2022 löste ein starkes Interesse an der Nachschulung aus und führte zu einer Lawine neuer Methoden zur Präferenzoptimierung (PO). Diese Methoden behaupten eine überlegene Ausrichtung aufgrund einer besseren Übereinstimmung mit menschlichen Paarpräferenzen, die oft von LLM-Richtern gemessen werden. In dieser Arbeit versuchen wir, die folgende Frage zu beantworten - lassen sich LLM-Richterpräferenzen in Fortschritte bei anderen, konkreteren Metriken für die Ausrichtung übersetzen, und wenn nicht, warum nicht? Wir definieren eine konkrete Metrik für die Ausrichtung und stellen SOS-Bench vor, den bisher größten standardisierten, reproduzierbaren LLM-Metabenchmark. Wir stellen fest, dass (1) LLM-Beurteilungen nicht mit konkreten Maßnahmen für Sicherheit, Weltwissen und Anweisungsfolgen korrelieren; (2) LLM-Richter starke implizite Vorurteile haben, die Stil über Faktizität und Sicherheit priorisieren; und (3) die überwachte Feinabstimmung (SFT)-Phase der Nachschulung und nicht die PO-Phase den größten Einfluss auf die Ausrichtung hat, wobei Datenskalierung und Prompt-Vielfalt die treibenden Faktoren sind. Unser Code und vollständige Ergebnisse sind unter https://github.com/penfever/sos-bench verfügbar.
English
The release of ChatGPT in November 2022 sparked an explosion of interest in
post-training and an avalanche of new preference optimization (PO) methods.
These methods claim superior alignment by virtue of better correspondence with
human pairwise preferences, often measured by LLM judges. In this work, we
attempt to answer the following question -- do LLM-judge preferences translate
to progress on other, more concrete metrics for alignment, and if not, why not?
We define a concrete metric for alignment, and introduce SOS-Bench, the largest
standardized, reproducible LLM meta-benchmark to date. We find that (1)
LLM-judgments do not correlate with concrete measures of safety, world
knowledge, and instruction following; (2) LLM judges have powerful implicit
biases, prioritizing style over factuality and safety; and (3) the supervised
fine-tuning (SFT) stage of post-training, and not the PO stage, has the
greatest impact on alignment, with data scaling and prompt diversity as the
driving factors. Our codebase and complete results can be found at
https://github.com/penfever/sos-bench.Summary
AI-Generated Summary