ChatPaper.aiChatPaper

Estilo sobre Sustancia: Modos de Falla de los Jueces LLM en la Evaluación de Referencia

Style over Substance: Failure Modes of LLM Judges in Alignment Benchmarking

September 23, 2024
Autores: Benjamin Feuer, Micah Goldblum, Teresa Datta, Sanjana Nambiar, Raz Besaleli, Samuel Dooley, Max Cembalest, John P. Dickerson
cs.AI

Resumen

El lanzamiento de ChatGPT en noviembre de 2022 desató un gran interés en el post-entrenamiento y una avalancha de nuevos métodos de optimización de preferencias (PO). Estos métodos afirman una alineación superior debido a una mejor correspondencia con las preferencias humanas emparejadas, a menudo medidas por jueces LLM. En este trabajo, intentamos responder a la siguiente pregunta: ¿las preferencias de los jueces LLM se traducen en avances en otras métricas más concretas de alineación, y si no, por qué no? Definimos una métrica concreta para la alineación e introducimos SOS-Bench, la meta-banca LLM estandarizada y reproducible más grande hasta la fecha. Descubrimos que (1) las decisiones de los jueces LLM no se correlacionan con medidas concretas de seguridad, conocimiento del mundo y seguimiento de instrucciones; (2) los jueces LLM tienen poderosos sesgos implícitos, priorizando el estilo sobre la factualidad y la seguridad; y (3) la etapa de ajuste fino supervisado (SFT) del post-entrenamiento, y no la etapa de PO, tiene el mayor impacto en la alineación, con la escalabilidad de datos y la diversidad de indicaciones como factores determinantes. Nuestro código y resultados completos se pueden encontrar en https://github.com/penfever/sos-bench.
English
The release of ChatGPT in November 2022 sparked an explosion of interest in post-training and an avalanche of new preference optimization (PO) methods. These methods claim superior alignment by virtue of better correspondence with human pairwise preferences, often measured by LLM judges. In this work, we attempt to answer the following question -- do LLM-judge preferences translate to progress on other, more concrete metrics for alignment, and if not, why not? We define a concrete metric for alignment, and introduce SOS-Bench, the largest standardized, reproducible LLM meta-benchmark to date. We find that (1) LLM-judgments do not correlate with concrete measures of safety, world knowledge, and instruction following; (2) LLM judges have powerful implicit biases, prioritizing style over factuality and safety; and (3) the supervised fine-tuning (SFT) stage of post-training, and not the PO stage, has the greatest impact on alignment, with data scaling and prompt diversity as the driving factors. Our codebase and complete results can be found at https://github.com/penfever/sos-bench.

Summary

AI-Generated Summary

PDF132November 16, 2024