JudgeLM: Modelos de Linguagem de Grande Escala Ajustados são Juízes Escaláveis
JudgeLM: Fine-tuned Large Language Models are Scalable Judges
October 26, 2023
Autores: Lianghui Zhu, Xinggang Wang, Xinlong Wang
cs.AI
Resumo
A avaliação de Modelos de Linguagem de Grande Escala (LLMs) em cenários de resposta aberta é desafiadora, pois os benchmarks e métricas existentes não conseguem medi-los de forma abrangente. Para resolver esse problema, propomos ajustar finamente LLMs como juízes escaláveis (JudgeLM) para avaliar LLMs de maneira eficiente e eficaz em benchmarks de resposta aberta. Primeiro, propomos um conjunto de dados abrangente, em larga escala e de alta qualidade, contendo sementes de tarefas, respostas geradas por LLMs e julgamentos gerados pelo GPT-4 para ajustar finamente juízes de alto desempenho, além de um novo benchmark para avaliar os juízes. Treinamos o JudgeLM em diferentes escalas, de 7B, 13B a 33B parâmetros, e realizamos uma análise sistemática de suas capacidades e comportamentos. Em seguida, analisamos os principais vieses ao ajustar finamente um LLM como juiz, considerando-os como viés de posição, viés de conhecimento e viés de formato. Para abordar esses problemas, o JudgeLM introduz um conjunto de técnicas, incluindo aumento por troca, suporte de referência e remoção de referência, que claramente melhoram o desempenho do juiz. O JudgeLM obtém o desempenho de juiz mais avançado tanto no benchmark existente PandaLM quanto no nosso novo benchmark proposto. Nosso JudgeLM é eficiente, e o JudgeLM-7B precisa de apenas 3 minutos para julgar 5K amostras com 8 GPUs A100. O JudgeLM obtém alta concordância com o juiz professor, alcançando uma concordância superior a 90%, que até supera a concordância humano-humano. O JudgeLM também demonstra capacidades estendidas ao atuar como juiz de resposta única, modelos multimodais, múltiplas respostas e chat de múltiplos turnos.
English
Evaluating Large Language Models (LLMs) in open-ended scenarios is
challenging because existing benchmarks and metrics can not measure them
comprehensively. To address this problem, we propose to fine-tune LLMs as
scalable judges (JudgeLM) to evaluate LLMs efficiently and effectively in
open-ended benchmarks. We first propose a comprehensive, large-scale,
high-quality dataset containing task seeds, LLMs-generated answers, and
GPT-4-generated judgments for fine-tuning high-performance judges, as well as a
new benchmark for evaluating the judges. We train JudgeLM at different scales
from 7B, 13B, to 33B parameters, and conduct a systematic analysis of its
capabilities and behaviors. We then analyze the key biases in fine-tuning LLM
as a judge and consider them as position bias, knowledge bias, and format bias.
To address these issues, JudgeLM introduces a bag of techniques including swap
augmentation, reference support, and reference drop, which clearly enhance the
judge's performance. JudgeLM obtains the state-of-the-art judge performance on
both the existing PandaLM benchmark and our proposed new benchmark. Our JudgeLM
is efficient and the JudgeLM-7B only needs 3 minutes to judge 5K samples with 8
A100 GPUs. JudgeLM obtains high agreement with the teacher judge, achieving an
agreement exceeding 90% that even surpasses human-to-human agreement. JudgeLM
also demonstrates extended capabilities in being judges of the single answer,
multimodal models, multiple answers, and multi-turn chat.