Stijl boven Inhoud: Faalmodi van LLM-rechters bij Afstemmingsbenchmarking
Style over Substance: Failure Modes of LLM Judges in Alignment Benchmarking
September 23, 2024
Auteurs: Benjamin Feuer, Micah Goldblum, Teresa Datta, Sanjana Nambiar, Raz Besaleli, Samuel Dooley, Max Cembalest, John P. Dickerson
cs.AI
Samenvatting
De lancering van ChatGPT in november 2022 leidde tot een golf van interesse in post-training en een lawine van nieuwe methoden voor voorkeursoptimalisatie (PO). Deze methoden beweren een superieure afstemming te hebben door een betere overeenkomst met menselijke pairwise voorkeuren, vaak gemeten door LLM-beoordelaars. In dit werk proberen we de volgende vraag te beantwoorden - vertalen LLM-beoordelingen zich naar vooruitgang op andere, meer concrete metrieken voor afstemming, en zo niet, waarom niet? We definiëren een concrete metriek voor afstemming en introduceren SOS-Bench, de grootste gestandaardiseerde, reproduceerbare LLM-meta-benchmark tot nu toe. We ontdekken dat (1) LLM-beoordelingen niet correleren met concrete maatregelen van veiligheid, wereldkennis en instructieopvolging; (2) LLM-beoordelaars hebben krachtige impliciete vooroordelen, waarbij stijl boven feitelijkheid en veiligheid wordt geprioriteerd; en (3) het begeleide fine-tuning (SFT) stadium van post-training, en niet het PO stadium, het grootste effect heeft op afstemming, met dataschaalvergroting en promptdiversiteit als drijvende factoren. Onze codebase en volledige resultaten zijn te vinden op https://github.com/penfever/sos-bench.
English
The release of ChatGPT in November 2022 sparked an explosion of interest in
post-training and an avalanche of new preference optimization (PO) methods.
These methods claim superior alignment by virtue of better correspondence with
human pairwise preferences, often measured by LLM judges. In this work, we
attempt to answer the following question -- do LLM-judge preferences translate
to progress on other, more concrete metrics for alignment, and if not, why not?
We define a concrete metric for alignment, and introduce SOS-Bench, the largest
standardized, reproducible LLM meta-benchmark to date. We find that (1)
LLM-judgments do not correlate with concrete measures of safety, world
knowledge, and instruction following; (2) LLM judges have powerful implicit
biases, prioritizing style over factuality and safety; and (3) the supervised
fine-tuning (SFT) stage of post-training, and not the PO stage, has the
greatest impact on alignment, with data scaling and prompt diversity as the
driving factors. Our codebase and complete results can be found at
https://github.com/penfever/sos-bench.Summary
AI-Generated Summary