ChatPaper.aiChatPaper

JudgeBench: набор тестов для оценки судей на основе LLM.

JudgeBench: A Benchmark for Evaluating LLM-based Judges

October 16, 2024
Авторы: Sijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica
cs.AI

Аннотация

Судьи на основе LLM стали масштабируемой альтернативой оценке человеком и все чаще используются для оценки, сравнения и улучшения моделей. Однако надежность самих судей на основе LLM редко подвергается критическому анализу. По мере усовершенствования LLM их ответы становятся более сложными, требуя более сильных судей для оценки. Существующие бенчмарки в основном сосредотачиваются на соответствии с предпочтениями человека, но часто не учитывают более сложные задачи, где предпочтения, собранные от людей, являются плохим показателем фактической и логической правильности. Для решения этой проблемы мы предлагаем новую систему оценки для объективной оценки судей на основе LLM. На основе этой системы мы предлагаем JudgeBench, бенчмарк для оценки судей на основе LLM на сложных парах ответов, охватывающих знания, рассуждения, математику и кодирование. JudgeBench использует новый конвейер для преобразования существующих сложных наборов данных в сложные пары ответов с метками предпочтения, отражающими объективную правильность. Наше всестороннее исследование на коллекции вызванных судей, настроенных судей, мультиагентных судей и моделей вознаграждения показывает, что JudgeBench представляет собой значительно более сложное испытание, чем предыдущие бенчмарки, причем многие сильные модели (например, GPT-4o) проявляют лишь незначительное превосходство над случайным угадыванием. В целом, JudgeBench предлагает надежную платформу для оценки все более усовершенствованных судей на основе LLM. Данные и код доступны по ссылке https://github.com/ScalerLab/JudgeBench.
English
LLM-based judges have emerged as a scalable alternative to human evaluation and are increasingly used to assess, compare, and improve models. However, the reliability of LLM-based judges themselves is rarely scrutinized. As LLMs become more advanced, their responses grow more sophisticated, requiring stronger judges to evaluate them. Existing benchmarks primarily focus on a judge's alignment with human preferences, but often fail to account for more challenging tasks where crowdsourced human preference is a poor indicator of factual and logical correctness. To address this, we propose a novel evaluation framework to objectively evaluate LLM-based judges. Based on this framework, we propose JudgeBench, a benchmark for evaluating LLM-based judges on challenging response pairs spanning knowledge, reasoning, math, and coding. JudgeBench leverages a novel pipeline for converting existing difficult datasets into challenging response pairs with preference labels reflecting objective correctness. Our comprehensive evaluation on a collection of prompted judges, fine-tuned judges, multi-agent judges, and reward models shows that JudgeBench poses a significantly greater challenge than previous benchmarks, with many strong models (e.g., GPT-4o) performing just slightly better than random guessing. Overall, JudgeBench offers a reliable platform for assessing increasingly advanced LLM-based judges. Data and code are available at https://github.com/ScalerLab/JudgeBench .

Summary

AI-Generated Summary

PDF482November 16, 2024