Stile sopra Sostanza: Modalità di Fallimento dei Giudici LLM nel Benchmarking dell'Allineamento
Style over Substance: Failure Modes of LLM Judges in Alignment Benchmarking
September 23, 2024
Autori: Benjamin Feuer, Micah Goldblum, Teresa Datta, Sanjana Nambiar, Raz Besaleli, Samuel Dooley, Max Cembalest, John P. Dickerson
cs.AI
Abstract
Il rilascio di ChatGPT nel novembre 2022 ha scatenato un'esplosione di interesse nel post-training e un'avalanche di nuovi metodi di ottimizzazione delle preferenze (PO). Questi metodi affermano un'allineamento superiore in virtù di una migliore corrispondenza con le preferenze umane a coppie, spesso misurate da giudici LLM. In questo lavoro, cerchiamo di rispondere alla seguente domanda - le preferenze dei giudici LLM si traducono in progressi su altre metriche più concrete per l'allineamento, e se no, perché no? Definiamo una metrica concreta per l'allineamento e presentiamo SOS-Bench, il più grande meta-benchmark LLM standardizzato e riproducibile fino ad oggi. Troviamo che (1) i giudizi LLM non correlano con misure concrete di sicurezza, conoscenza del mondo e seguire le istruzioni; (2) i giudici LLM hanno potenti pregiudizi impliciti, dando priorità allo stile rispetto alla factualità e alla sicurezza; e (3) la fase di fine-tuning supervisionato (SFT) del post-training, e non la fase PO, ha il maggior impatto sull'allineamento, con la scalabilità dei dati e la diversità delle prompt come fattori trainanti. Il nostro codice sorgente e i risultati completi possono essere trovati su https://github.com/penfever/sos-bench.
English
The release of ChatGPT in November 2022 sparked an explosion of interest in
post-training and an avalanche of new preference optimization (PO) methods.
These methods claim superior alignment by virtue of better correspondence with
human pairwise preferences, often measured by LLM judges. In this work, we
attempt to answer the following question -- do LLM-judge preferences translate
to progress on other, more concrete metrics for alignment, and if not, why not?
We define a concrete metric for alignment, and introduce SOS-Bench, the largest
standardized, reproducible LLM meta-benchmark to date. We find that (1)
LLM-judgments do not correlate with concrete measures of safety, world
knowledge, and instruction following; (2) LLM judges have powerful implicit
biases, prioritizing style over factuality and safety; and (3) the supervised
fine-tuning (SFT) stage of post-training, and not the PO stage, has the
greatest impact on alignment, with data scaling and prompt diversity as the
driving factors. Our codebase and complete results can be found at
https://github.com/penfever/sos-bench.Summary
AI-Generated Summary