Estilo sobre Substância: Modos de Falha dos Juízes LLM na Avaliação de Alinhamento
Style over Substance: Failure Modes of LLM Judges in Alignment Benchmarking
September 23, 2024
Autores: Benjamin Feuer, Micah Goldblum, Teresa Datta, Sanjana Nambiar, Raz Besaleli, Samuel Dooley, Max Cembalest, John P. Dickerson
cs.AI
Resumo
O lançamento do ChatGPT em novembro de 2022 desencadeou uma explosão de interesse em pós-treinamento e uma avalanche de novos métodos de otimização de preferências (PO). Esses métodos afirmam ter uma superior alinhamento devido a uma melhor correspondência com as preferências humanas em pares, frequentemente avaliadas por juízes LLM. Neste trabalho, tentamos responder à seguinte pergunta - as preferências dos juízes LLM se traduzem em avanços em outras métricas mais concretas de alinhamento e, se não, por quê? Definimos uma métrica concreta para alinhamento e introduzimos o SOS-Bench, o maior meta-benchmark LLM padronizado e reproduzível até o momento. Descobrimos que (1) as avaliações LLM não se correlacionam com medidas concretas de segurança, conhecimento do mundo e seguimento de instruções; (2) os juízes LLM possuem poderosos preconceitos implícitos, priorizando estilo em detrimento da factualidade e segurança; e (3) a etapa de ajuste fino supervisionado (SFT) do pós-treinamento, e não a etapa PO, tem o maior impacto no alinhamento, com a escala de dados e a diversidade de prompts como os principais fatores impulsionadores. Nosso código-fonte e resultados completos podem ser encontrados em https://github.com/penfever/sos-bench.
English
The release of ChatGPT in November 2022 sparked an explosion of interest in
post-training and an avalanche of new preference optimization (PO) methods.
These methods claim superior alignment by virtue of better correspondence with
human pairwise preferences, often measured by LLM judges. In this work, we
attempt to answer the following question -- do LLM-judge preferences translate
to progress on other, more concrete metrics for alignment, and if not, why not?
We define a concrete metric for alignment, and introduce SOS-Bench, the largest
standardized, reproducible LLM meta-benchmark to date. We find that (1)
LLM-judgments do not correlate with concrete measures of safety, world
knowledge, and instruction following; (2) LLM judges have powerful implicit
biases, prioritizing style over factuality and safety; and (3) the supervised
fine-tuning (SFT) stage of post-training, and not the PO stage, has the
greatest impact on alignment, with data scaling and prompt diversity as the
driving factors. Our codebase and complete results can be found at
https://github.com/penfever/sos-bench.Summary
AI-Generated Summary