ChatPaper.aiChatPaper

Style plutôt que Substance : Modes de Défaillance des Juges LLM dans le Cadre de l'Étalonnage de l'Alignement

Style over Substance: Failure Modes of LLM Judges in Alignment Benchmarking

September 23, 2024
Auteurs: Benjamin Feuer, Micah Goldblum, Teresa Datta, Sanjana Nambiar, Raz Besaleli, Samuel Dooley, Max Cembalest, John P. Dickerson
cs.AI

Résumé

La sortie de ChatGPT en novembre 2022 a suscité un engouement pour le post-entraînement et une avalanche de nouvelles méthodes d'optimisation des préférences (PO). Ces méthodes revendiquent une meilleure alignement grâce à une meilleure correspondance avec les préférences humaines par paires, souvent mesurées par des juges LLM. Dans ce travail, nous tentons de répondre à la question suivante : les préférences des juges LLM se traduisent-elles par des progrès sur d'autres métriques plus concrètes d'alignement, et si ce n'est pas le cas, pourquoi ? Nous définissons une métrique concrète pour l'alignement, et présentons SOS-Bench, le plus grand méta-benchmark LLM standardisé et reproductible à ce jour. Nous constatons que (1) les jugements LLM ne sont pas corrélés avec des mesures concrètes de sécurité, de connaissance du monde et de suivi des instructions ; (2) les juges LLM ont de puissants biais implicites, privilégiant le style à la factualité et à la sécurité ; et (3) l'étape de fine-tuning supervisée (SFT) du post-entraînement, et non l'étape PO, a le plus grand impact sur l'alignement, avec la mise à l'échelle des données et la diversité des prompts comme facteurs déterminants. Notre base de code et nos résultats complets sont disponibles sur https://github.com/penfever/sos-bench.
English
The release of ChatGPT in November 2022 sparked an explosion of interest in post-training and an avalanche of new preference optimization (PO) methods. These methods claim superior alignment by virtue of better correspondence with human pairwise preferences, often measured by LLM judges. In this work, we attempt to answer the following question -- do LLM-judge preferences translate to progress on other, more concrete metrics for alignment, and if not, why not? We define a concrete metric for alignment, and introduce SOS-Bench, the largest standardized, reproducible LLM meta-benchmark to date. We find that (1) LLM-judgments do not correlate with concrete measures of safety, world knowledge, and instruction following; (2) LLM judges have powerful implicit biases, prioritizing style over factuality and safety; and (3) the supervised fine-tuning (SFT) stage of post-training, and not the PO stage, has the greatest impact on alignment, with data scaling and prompt diversity as the driving factors. Our codebase and complete results can be found at https://github.com/penfever/sos-bench.

Summary

AI-Generated Summary

PDF132November 16, 2024