Стиль перед содержанием: режимы сбоев судей LLM в процессе выравнивания показателей.
Style over Substance: Failure Modes of LLM Judges in Alignment Benchmarking
September 23, 2024
Авторы: Benjamin Feuer, Micah Goldblum, Teresa Datta, Sanjana Nambiar, Raz Besaleli, Samuel Dooley, Max Cembalest, John P. Dickerson
cs.AI
Аннотация
Выход ChatGPT в ноябре 2022 года вызвал взрыв интереса к посттренировке и лавину новых методов оптимизации предпочтений (PO). Эти методы утверждают, что обладают превосходным соответствием за счет лучшего соответствия человеческим попарным предпочтениям, часто измеряемым судьями LLM. В данной работе мы пытаемся ответить на следующий вопрос - переводятся ли предпочтения судей LLM на прогресс по другим, более конкретным метрикам для соответствия, и если нет, то почему? Мы определяем конкретную метрику для соответствия и представляем SOS-Bench, крупнейший стандартизированный, воспроизводимый мета-бенчмарк LLM на сегодняшний день. Мы обнаружили, что (1) суждения судей LLM не коррелируют с конкретными показателями безопасности, мирового знания и следования инструкциям; (2) судьи LLM имеют мощные неосознанные предвзятости, отдавая предпочтение стилю перед фактичностью и безопасностью; и (3) стадия надзорного дообучения (SFT) после посттренировки, а не стадия PO, оказывает наибольшее влияние на соответствие, причем масштабирование данных и разнообразие подсказок являются определяющими факторами. Наш код и полные результаты можно найти по ссылке https://github.com/penfever/sos-bench.
English
The release of ChatGPT in November 2022 sparked an explosion of interest in
post-training and an avalanche of new preference optimization (PO) methods.
These methods claim superior alignment by virtue of better correspondence with
human pairwise preferences, often measured by LLM judges. In this work, we
attempt to answer the following question -- do LLM-judge preferences translate
to progress on other, more concrete metrics for alignment, and if not, why not?
We define a concrete metric for alignment, and introduce SOS-Bench, the largest
standardized, reproducible LLM meta-benchmark to date. We find that (1)
LLM-judgments do not correlate with concrete measures of safety, world
knowledge, and instruction following; (2) LLM judges have powerful implicit
biases, prioritizing style over factuality and safety; and (3) the supervised
fine-tuning (SFT) stage of post-training, and not the PO stage, has the
greatest impact on alignment, with data scaling and prompt diversity as the
driving factors. Our codebase and complete results can be found at
https://github.com/penfever/sos-bench.