JudgeBench: Um Benchmark para Avaliar Juízes Baseados em LLM
JudgeBench: A Benchmark for Evaluating LLM-based Judges
October 16, 2024
Autores: Sijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica
cs.AI
Resumo
Juízes baseados em LLM surgiram como uma alternativa escalável à avaliação humana e estão sendo cada vez mais utilizados para avaliar, comparar e melhorar modelos. No entanto, a confiabilidade dos juízes baseados em LLM raramente é examinada. À medida que os LLMs se tornam mais avançados, suas respostas se tornam mais sofisticadas, exigindo juízes mais robustos para avaliá-los. As referências existentes focam principalmente na concordância de um juiz com as preferências humanas, mas frequentemente falham em considerar tarefas mais desafiadoras, onde a preferência humana coletada em massa é um indicador fraco de correção factual e lógica. Para lidar com isso, propomos um novo framework de avaliação para avaliar objetivamente juízes baseados em LLM. Com base nesse framework, propomos o JudgeBench, um benchmark para avaliar juízes baseados em LLM em pares de respostas desafiadores abrangendo conhecimento, raciocínio, matemática e codificação. O JudgeBench utiliza um pipeline inovador para converter conjuntos de dados difíceis existentes em pares de respostas desafiadores com rótulos de preferência que refletem a correção objetiva. Nossa avaliação abrangente em uma coleção de juízes solicitados, juízes ajustados e modelos de recompensa mostra que o JudgeBench apresenta um desafio significativamente maior do que benchmarks anteriores, com muitos modelos robustos (por exemplo, GPT-4o) performando apenas ligeiramente melhor do que adivinhação aleatória. No geral, o JudgeBench oferece uma plataforma confiável para avaliar juízes baseados em LLM cada vez mais avançados. Os dados e o código estão disponíveis em https://github.com/ScalerLab/JudgeBench.
English
LLM-based judges have emerged as a scalable alternative to human evaluation
and are increasingly used to assess, compare, and improve models. However, the
reliability of LLM-based judges themselves is rarely scrutinized. As LLMs
become more advanced, their responses grow more sophisticated, requiring
stronger judges to evaluate them. Existing benchmarks primarily focus on a
judge's alignment with human preferences, but often fail to account for more
challenging tasks where crowdsourced human preference is a poor indicator of
factual and logical correctness. To address this, we propose a novel evaluation
framework to objectively evaluate LLM-based judges. Based on this framework, we
propose JudgeBench, a benchmark for evaluating LLM-based judges on challenging
response pairs spanning knowledge, reasoning, math, and coding. JudgeBench
leverages a novel pipeline for converting existing difficult datasets into
challenging response pairs with preference labels reflecting objective
correctness. Our comprehensive evaluation on a collection of prompted judges,
fine-tuned judges, multi-agent judges, and reward models shows that JudgeBench
poses a significantly greater challenge than previous benchmarks, with many
strong models (e.g., GPT-4o) performing just slightly better than random
guessing. Overall, JudgeBench offers a reliable platform for assessing
increasingly advanced LLM-based judges. Data and code are available at
https://github.com/ScalerLab/JudgeBench .Summary
AI-Generated Summary