JudgeLM: Modelos de Lenguaje Grande ajustados son Jueces Escalables
JudgeLM: Fine-tuned Large Language Models are Scalable Judges
October 26, 2023
Autores: Lianghui Zhu, Xinggang Wang, Xinlong Wang
cs.AI
Resumen
Evaluar modelos de lenguaje de gran escala (LLMs) en escenarios de respuesta abierta es un desafío, ya que los puntos de referencia y métricas existentes no pueden medirlos de manera integral. Para abordar este problema, proponemos ajustar finamente LLMs como jueces escalables (JudgeLM) para evaluar LLMs de manera eficiente y efectiva en puntos de referencia de respuesta abierta. Primero, proponemos un conjunto de datos completo, a gran escala y de alta calidad que contiene semillas de tareas, respuestas generadas por LLMs y juicios generados por GPT-4 para ajustar finamente jueces de alto rendimiento, así como un nuevo punto de referencia para evaluar a los jueces. Entrenamos JudgeLM en diferentes escalas, desde 7B, 13B hasta 33B parámetros, y realizamos un análisis sistemático de sus capacidades y comportamientos. Luego, analizamos los sesgos clave al ajustar finamente un LLM como juez, considerándolos como sesgo de posición, sesgo de conocimiento y sesgo de formato. Para abordar estos problemas, JudgeLM introduce un conjunto de técnicas que incluyen aumento por intercambio, soporte de referencia y eliminación de referencia, las cuales mejoran claramente el rendimiento del juez. JudgeLM obtiene el rendimiento de juez más avanzado tanto en el punto de referencia existente PandaLM como en nuestro nuevo punto de referencia propuesto. Nuestro JudgeLM es eficiente y el JudgeLM-7B solo necesita 3 minutos para juzgar 5K muestras con 8 GPUs A100. JudgeLM alcanza un alto acuerdo con el juez maestro, logrando un acuerdo superior al 90% que incluso supera el acuerdo humano-humano. JudgeLM también demuestra capacidades extendidas como juez de respuestas únicas, modelos multimodales, múltiples respuestas y chats de múltiples turnos.
English
Evaluating Large Language Models (LLMs) in open-ended scenarios is
challenging because existing benchmarks and metrics can not measure them
comprehensively. To address this problem, we propose to fine-tune LLMs as
scalable judges (JudgeLM) to evaluate LLMs efficiently and effectively in
open-ended benchmarks. We first propose a comprehensive, large-scale,
high-quality dataset containing task seeds, LLMs-generated answers, and
GPT-4-generated judgments for fine-tuning high-performance judges, as well as a
new benchmark for evaluating the judges. We train JudgeLM at different scales
from 7B, 13B, to 33B parameters, and conduct a systematic analysis of its
capabilities and behaviors. We then analyze the key biases in fine-tuning LLM
as a judge and consider them as position bias, knowledge bias, and format bias.
To address these issues, JudgeLM introduces a bag of techniques including swap
augmentation, reference support, and reference drop, which clearly enhance the
judge's performance. JudgeLM obtains the state-of-the-art judge performance on
both the existing PandaLM benchmark and our proposed new benchmark. Our JudgeLM
is efficient and the JudgeLM-7B only needs 3 minutes to judge 5K samples with 8
A100 GPUs. JudgeLM obtains high agreement with the teacher judge, achieving an
agreement exceeding 90% that even surpasses human-to-human agreement. JudgeLM
also demonstrates extended capabilities in being judges of the single answer,
multimodal models, multiple answers, and multi-turn chat.