JudgeBench : Un banc d'essai pour évaluer les juges basés sur les LLM

papers.abstract

Les juges basés sur les LLM ont émergé comme une alternative évolutive à l'évaluation humaine et sont de plus en plus utilisés pour évaluer, comparer et améliorer les modèles. Cependant, la fiabilité des juges basés sur les LLM eux-mêmes est rarement examinée. À mesure que les LLM deviennent plus avancés, leurs réponses deviennent plus sophistiquées, nécessitant des juges plus solides pour les évaluer. Les benchmarks existants se concentrent principalement sur l'alignement d'un juge avec les préférences humaines, mais échouent souvent à prendre en compte des tâches plus complexes où la préférence humaine obtenue par crowdsourcing est un mauvais indicateur de la véracité et de la logique. Pour remédier à cela, nous proposons un nouveau cadre d'évaluation pour évaluer de manière objective les juges basés sur les LLM. Sur la base de ce cadre, nous proposons JudgeBench, un benchmark pour évaluer les juges basés sur les LLM sur des paires de réponses complexes couvrant les domaines de la connaissance, du raisonnement, des mathématiques et du codage. JudgeBench exploite un pipeline novateur pour convertir des ensembles de données difficiles existants en paires de réponses complexes avec des étiquettes de préférence reflétant la véracité objective. Notre évaluation complète sur une collection de juges sollicités, de juges affinés, de juges multi-agents et de modèles de récompense montre que JudgeBench pose un défi beaucoup plus important que les benchmarks précédents, de nombreux modèles performants (par exemple, GPT-4o) obtenant à peine de meilleurs résultats qu'une supposition aléatoire. Dans l'ensemble, JudgeBench offre une plateforme fiable pour évaluer des juges basés sur les LLM de plus en plus avancés. Les données et le code sont disponibles sur https://github.com/ScalerLab/JudgeBench.

English

LLM-based judges have emerged as a scalable alternative to human evaluation and are increasingly used to assess, compare, and improve models. However, the reliability of LLM-based judges themselves is rarely scrutinized. As LLMs become more advanced, their responses grow more sophisticated, requiring stronger judges to evaluate them. Existing benchmarks primarily focus on a judge's alignment with human preferences, but often fail to account for more challenging tasks where crowdsourced human preference is a poor indicator of factual and logical correctness. To address this, we propose a novel evaluation framework to objectively evaluate LLM-based judges. Based on this framework, we propose JudgeBench, a benchmark for evaluating LLM-based judges on challenging response pairs spanning knowledge, reasoning, math, and coding. JudgeBench leverages a novel pipeline for converting existing difficult datasets into challenging response pairs with preference labels reflecting objective correctness. Our comprehensive evaluation on a collection of prompted judges, fine-tuned judges, multi-agent judges, and reward models shows that JudgeBench poses a significantly greater challenge than previous benchmarks, with many strong models (e.g., GPT-4o) performing just slightly better than random guessing. Overall, JudgeBench offers a reliable platform for assessing increasingly advanced LLM-based judges. Data and code are available at https://github.com/ScalerLab/JudgeBench .

JudgeBench : Un banc d'essai pour évaluer les juges basés sur les LLM

JudgeBench: A Benchmark for Evaluating LLM-based Judges

papers.abstract

Support