ChatPaper.aiChatPaper

Richterbank: Ein Benchmark zur Bewertung von Richtern auf Basis von LLM.

JudgeBench: A Benchmark for Evaluating LLM-based Judges

October 16, 2024
Autoren: Sijun Tan, Siyuan Zhuang, Kyle Montgomery, William Y. Tang, Alejandro Cuadron, Chenguang Wang, Raluca Ada Popa, Ion Stoica
cs.AI

Zusammenfassung

LLM-basierte Richter sind als skalierbare Alternative zur menschlichen Bewertung aufgetaucht und werden zunehmend zur Bewertung, Vergleich und Verbesserung von Modellen eingesetzt. Die Zuverlässigkeit der LLM-basierten Richter selbst wird jedoch selten überprüft. Mit der zunehmenden Weiterentwicklung von LLMs werden ihre Antworten anspruchsvoller, was stärkere Richter erfordert, um sie zu bewerten. Bestehende Benchmarks konzentrieren sich hauptsächlich auf die Übereinstimmung eines Richters mit menschlichen Präferenzen, berücksichtigen jedoch oft nicht anspruchsvolle Aufgaben, bei denen die von der Crowd bezogenen menschlichen Präferenzen ein schlechter Indikator für faktische und logische Korrektheit sind. Um dies zu lösen, schlagen wir ein neuartiges Bewertungsframework vor, um LLM-basierte Richter objektiv zu bewerten. Basierend auf diesem Framework schlagen wir JudgeBench vor, einen Benchmark zur Bewertung von LLM-basierten Richtern anhand anspruchsvoller Antwortpaare, die Wissen, Schlussfolgerungen, Mathematik und Codierung umfassen. JudgeBench nutzt eine neuartige Pipeline zur Umwandlung bestehender schwieriger Datensätze in anspruchsvolle Antwortpaare mit Präferenzlabels, die die objektive Korrektheit widerspiegeln. Unsere umfassende Evaluation an einer Sammlung von aufgeforderten Richtern, feinabgestimmten Richtern, Multi-Agenten-Richtern und Belohnungsmodellen zeigt, dass JudgeBench eine deutlich größere Herausforderung darstellt als bisherige Benchmarks, wobei viele starke Modelle (z.B. GPT-4o) nur geringfügig besser abschneiden als zufälliges Raten. Insgesamt bietet JudgeBench eine zuverlässige Plattform zur Bewertung von zunehmend fortgeschrittenen LLM-basierten Richtern. Daten und Code sind verfügbar unter https://github.com/ScalerLab/JudgeBench.
English
LLM-based judges have emerged as a scalable alternative to human evaluation and are increasingly used to assess, compare, and improve models. However, the reliability of LLM-based judges themselves is rarely scrutinized. As LLMs become more advanced, their responses grow more sophisticated, requiring stronger judges to evaluate them. Existing benchmarks primarily focus on a judge's alignment with human preferences, but often fail to account for more challenging tasks where crowdsourced human preference is a poor indicator of factual and logical correctness. To address this, we propose a novel evaluation framework to objectively evaluate LLM-based judges. Based on this framework, we propose JudgeBench, a benchmark for evaluating LLM-based judges on challenging response pairs spanning knowledge, reasoning, math, and coding. JudgeBench leverages a novel pipeline for converting existing difficult datasets into challenging response pairs with preference labels reflecting objective correctness. Our comprehensive evaluation on a collection of prompted judges, fine-tuned judges, multi-agent judges, and reward models shows that JudgeBench poses a significantly greater challenge than previous benchmarks, with many strong models (e.g., GPT-4o) performing just slightly better than random guessing. Overall, JudgeBench offers a reliable platform for assessing increasingly advanced LLM-based judges. Data and code are available at https://github.com/ScalerLab/JudgeBench .

Summary

AI-Generated Summary

PDF482November 16, 2024