JudgeBench : Un banc d'essai pour évaluer les juges basés sur les LLM
JudgeBench: A Benchmark for Evaluating LLM-based Judges
October 16, 2024
Auteurs: Sijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica
cs.AI
Résumé
Les juges basés sur les LLM ont émergé comme une alternative évolutive à l'évaluation humaine et sont de plus en plus utilisés pour évaluer, comparer et améliorer les modèles. Cependant, la fiabilité des juges basés sur les LLM eux-mêmes est rarement examinée. À mesure que les LLM deviennent plus avancés, leurs réponses deviennent plus sophistiquées, nécessitant des juges plus solides pour les évaluer. Les benchmarks existants se concentrent principalement sur l'alignement d'un juge avec les préférences humaines, mais échouent souvent à prendre en compte des tâches plus complexes où la préférence humaine obtenue par crowdsourcing est un mauvais indicateur de la véracité et de la logique. Pour remédier à cela, nous proposons un nouveau cadre d'évaluation pour évaluer de manière objective les juges basés sur les LLM. Sur la base de ce cadre, nous proposons JudgeBench, un benchmark pour évaluer les juges basés sur les LLM sur des paires de réponses complexes couvrant les domaines de la connaissance, du raisonnement, des mathématiques et du codage. JudgeBench exploite un pipeline novateur pour convertir des ensembles de données difficiles existants en paires de réponses complexes avec des étiquettes de préférence reflétant la véracité objective. Notre évaluation complète sur une collection de juges sollicités, de juges affinés, de juges multi-agents et de modèles de récompense montre que JudgeBench pose un défi beaucoup plus important que les benchmarks précédents, de nombreux modèles performants (par exemple, GPT-4o) obtenant à peine de meilleurs résultats qu'une supposition aléatoire. Dans l'ensemble, JudgeBench offre une plateforme fiable pour évaluer des juges basés sur les LLM de plus en plus avancés. Les données et le code sont disponibles sur https://github.com/ScalerLab/JudgeBench.
English
LLM-based judges have emerged as a scalable alternative to human evaluation
and are increasingly used to assess, compare, and improve models. However, the
reliability of LLM-based judges themselves is rarely scrutinized. As LLMs
become more advanced, their responses grow more sophisticated, requiring
stronger judges to evaluate them. Existing benchmarks primarily focus on a
judge's alignment with human preferences, but often fail to account for more
challenging tasks where crowdsourced human preference is a poor indicator of
factual and logical correctness. To address this, we propose a novel evaluation
framework to objectively evaluate LLM-based judges. Based on this framework, we
propose JudgeBench, a benchmark for evaluating LLM-based judges on challenging
response pairs spanning knowledge, reasoning, math, and coding. JudgeBench
leverages a novel pipeline for converting existing difficult datasets into
challenging response pairs with preference labels reflecting objective
correctness. Our comprehensive evaluation on a collection of prompted judges,
fine-tuned judges, multi-agent judges, and reward models shows that JudgeBench
poses a significantly greater challenge than previous benchmarks, with many
strong models (e.g., GPT-4o) performing just slightly better than random
guessing. Overall, JudgeBench offers a reliable platform for assessing
increasingly advanced LLM-based judges. Data and code are available at
https://github.com/ScalerLab/JudgeBench .Summary
AI-Generated Summary