ChatPaper.aiChatPaper

JudgeBench: Un conjunto de pruebas para evaluar jueces basados en LLM.

JudgeBench: A Benchmark for Evaluating LLM-based Judges

October 16, 2024
Autores: Sijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica
cs.AI

Resumen

Los jueces basados en LLM han surgido como una alternativa escalable a la evaluación humana y se utilizan cada vez más para evaluar, comparar y mejorar modelos. Sin embargo, la fiabilidad de los propios jueces basados en LLM rara vez se examina. A medida que los LLM se vuelven más avanzados, sus respuestas se vuelven más sofisticadas, lo que requiere jueces más sólidos para evaluarlos. Los benchmarks existentes se centran principalmente en la alineación de un juez con las preferencias humanas, pero a menudo no tienen en cuenta tareas más desafiantes donde las preferencias humanas obtenidas mediante crowdsourcing son un indicador pobre de la corrección factual y lógica. Para abordar esto, proponemos un nuevo marco de evaluación para evaluar objetivamente a los jueces basados en LLM. Basándonos en este marco, proponemos JudgeBench, un benchmark para evaluar a los jueces basados en LLM en pares de respuestas desafiantes que abarcan conocimiento, razonamiento, matemáticas y codificación. JudgeBench aprovecha un nuevo proceso para convertir conjuntos de datos difíciles existentes en pares de respuestas desafiantes con etiquetas de preferencia que reflejan la corrección objetiva. Nuestra evaluación exhaustiva en una colección de jueces solicitados, jueces ajustados y modelos de recompensa muestra que JudgeBench plantea un desafío significativamente mayor que los benchmarks anteriores, con muchos modelos sólidos (por ejemplo, GPT-4o) que tienen un rendimiento apenas mejor que una suposición aleatoria. En general, JudgeBench ofrece una plataforma fiable para evaluar a los jueces basados en LLM cada vez más avanzados. Los datos y el código están disponibles en https://github.com/ScalerLab/JudgeBench.
English
LLM-based judges have emerged as a scalable alternative to human evaluation and are increasingly used to assess, compare, and improve models. However, the reliability of LLM-based judges themselves is rarely scrutinized. As LLMs become more advanced, their responses grow more sophisticated, requiring stronger judges to evaluate them. Existing benchmarks primarily focus on a judge's alignment with human preferences, but often fail to account for more challenging tasks where crowdsourced human preference is a poor indicator of factual and logical correctness. To address this, we propose a novel evaluation framework to objectively evaluate LLM-based judges. Based on this framework, we propose JudgeBench, a benchmark for evaluating LLM-based judges on challenging response pairs spanning knowledge, reasoning, math, and coding. JudgeBench leverages a novel pipeline for converting existing difficult datasets into challenging response pairs with preference labels reflecting objective correctness. Our comprehensive evaluation on a collection of prompted judges, fine-tuned judges, multi-agent judges, and reward models shows that JudgeBench poses a significantly greater challenge than previous benchmarks, with many strong models (e.g., GPT-4o) performing just slightly better than random guessing. Overall, JudgeBench offers a reliable platform for assessing increasingly advanced LLM-based judges. Data and code are available at https://github.com/ScalerLab/JudgeBench .

Summary

AI-Generated Summary

PDF482November 16, 2024