JuStRank: Avaliando Juízes de LLM para Classificação de Sistemas
JuStRank: Benchmarking LLM Judges for System Ranking
December 12, 2024
Autores: Ariel Gera, Odellia Boni, Yotam Perlitz, Roy Bar-Haim, Lilach Eden, Asaf Yehudai
cs.AI
Resumo
Dado o rápido progresso da IA generativa, há uma necessidade urgente de comparar e escolher sistematicamente entre os numerosos modelos e configurações disponíveis. A escala e versatilidade dessas avaliações tornam o uso de juízes baseados em LLM uma solução convincente para esse desafio. Crucialmente, esse enfoque requer primeiro validar a qualidade do juiz LLM em si. Trabalhos anteriores têm se concentrado na avaliação baseada em instâncias de juízes LLM, onde um juiz é avaliado em um conjunto de respostas, ou pares de respostas, sem considerar seus sistemas de origem. Argumentamos que essa abordagem negligencia fatores críticos que afetam a classificação em nível de sistema, como o viés positivo ou negativo de um juiz em relação a certos sistemas. Para abordar essa lacuna, realizamos o primeiro estudo em larga escala de juízes LLM como classificadores de sistema. As pontuações do sistema são geradas pela agregação de pontuações de julgamento em várias saídas do sistema, e a qualidade do juiz é avaliada comparando a classificação resultante do sistema com uma classificação baseada em humanos. Além da avaliação geral do juiz, nossa análise fornece uma caracterização detalhada do comportamento do juiz, incluindo sua decisão e viés.
English
Given the rapid progress of generative AI, there is a pressing need to
systematically compare and choose between the numerous models and
configurations available. The scale and versatility of such evaluations make
the use of LLM-based judges a compelling solution for this challenge.
Crucially, this approach requires first to validate the quality of the LLM
judge itself. Previous work has focused on instance-based assessment of LLM
judges, where a judge is evaluated over a set of responses, or response pairs,
while being agnostic to their source systems. We argue that this setting
overlooks critical factors affecting system-level ranking, such as a judge's
positive or negative bias towards certain systems. To address this gap, we
conduct the first large-scale study of LLM judges as system rankers. System
scores are generated by aggregating judgment scores over multiple system
outputs, and the judge's quality is assessed by comparing the resulting system
ranking to a human-based ranking. Beyond overall judge assessment, our analysis
provides a fine-grained characterization of judge behavior, including their
decisiveness and bias.Summary
AI-Generated Summary