ChatPaper.aiChatPaper

JuStRank : Évaluation des juges LLM pour le classement de systèmes

JuStRank: Benchmarking LLM Judges for System Ranking

December 12, 2024
Auteurs: Ariel Gera, Odellia Boni, Yotam Perlitz, Roy Bar-Haim, Lilach Eden, Asaf Yehudai
cs.AI

Résumé

Étant donné les progrès rapides de l'IA générative, il est urgent de comparer et de choisir systématiquement entre les nombreux modèles et configurations disponibles. L'ampleur et la polyvalence de telles évaluations rendent l'utilisation de juges basés sur les LLM une solution convaincante pour ce défi. De manière cruciale, cette approche nécessite d'abord de valider la qualité du juge LLM lui-même. Les travaux antérieurs se sont concentrés sur l'évaluation basée sur des instances des juges LLM, où un juge est évalué sur un ensemble de réponses, ou de paires de réponses, tout en étant agnostique quant à leurs systèmes sources. Nous soutenons que ce cadre néglige des facteurs critiques affectant le classement au niveau du système, tels que le biais positif ou négatif d'un juge envers certains systèmes. Pour combler cette lacune, nous menons la première étude à grande échelle des juges LLM en tant que classeurs de systèmes. Les scores des systèmes sont générés en agrégeant les scores de jugement sur plusieurs sorties système, et la qualité du juge est évaluée en comparant le classement des systèmes résultant à un classement basé sur des humains. Au-delà de l'évaluation globale du juge, notre analyse fournit une caractérisation détaillée du comportement du juge, y compris leur caractère décisif et leur biais.
English
Given the rapid progress of generative AI, there is a pressing need to systematically compare and choose between the numerous models and configurations available. The scale and versatility of such evaluations make the use of LLM-based judges a compelling solution for this challenge. Crucially, this approach requires first to validate the quality of the LLM judge itself. Previous work has focused on instance-based assessment of LLM judges, where a judge is evaluated over a set of responses, or response pairs, while being agnostic to their source systems. We argue that this setting overlooks critical factors affecting system-level ranking, such as a judge's positive or negative bias towards certain systems. To address this gap, we conduct the first large-scale study of LLM judges as system rankers. System scores are generated by aggregating judgment scores over multiple system outputs, and the judge's quality is assessed by comparing the resulting system ranking to a human-based ranking. Beyond overall judge assessment, our analysis provides a fine-grained characterization of judge behavior, including their decisiveness and bias.

Summary

AI-Generated Summary

PDF203December 13, 2024