JudgeLM: Modelos de Lenguaje Grande ajustados son Jueces Escalables

Resumen

Evaluar modelos de lenguaje de gran escala (LLMs) en escenarios de respuesta abierta es un desafío, ya que los puntos de referencia y métricas existentes no pueden medirlos de manera integral. Para abordar este problema, proponemos ajustar finamente LLMs como jueces escalables (JudgeLM) para evaluar LLMs de manera eficiente y efectiva en puntos de referencia de respuesta abierta. Primero, proponemos un conjunto de datos completo, a gran escala y de alta calidad que contiene semillas de tareas, respuestas generadas por LLMs y juicios generados por GPT-4 para ajustar finamente jueces de alto rendimiento, así como un nuevo punto de referencia para evaluar a los jueces. Entrenamos JudgeLM en diferentes escalas, desde 7B, 13B hasta 33B parámetros, y realizamos un análisis sistemático de sus capacidades y comportamientos. Luego, analizamos los sesgos clave al ajustar finamente un LLM como juez, considerándolos como sesgo de posición, sesgo de conocimiento y sesgo de formato. Para abordar estos problemas, JudgeLM introduce un conjunto de técnicas que incluyen aumento por intercambio, soporte de referencia y eliminación de referencia, las cuales mejoran claramente el rendimiento del juez. JudgeLM obtiene el rendimiento de juez más avanzado tanto en el punto de referencia existente PandaLM como en nuestro nuevo punto de referencia propuesto. Nuestro JudgeLM es eficiente y el JudgeLM-7B solo necesita 3 minutos para juzgar 5K muestras con 8 GPUs A100. JudgeLM alcanza un alto acuerdo con el juez maestro, logrando un acuerdo superior al 90% que incluso supera el acuerdo humano-humano. JudgeLM también demuestra capacidades extendidas como juez de respuestas únicas, modelos multimodales, múltiples respuestas y chats de múltiples turnos.

English

Evaluating Large Language Models (LLMs) in open-ended scenarios is challenging because existing benchmarks and metrics can not measure them comprehensively. To address this problem, we propose to fine-tune LLMs as scalable judges (JudgeLM) to evaluate LLMs efficiently and effectively in open-ended benchmarks. We first propose a comprehensive, large-scale, high-quality dataset containing task seeds, LLMs-generated answers, and GPT-4-generated judgments for fine-tuning high-performance judges, as well as a new benchmark for evaluating the judges. We train JudgeLM at different scales from 7B, 13B, to 33B parameters, and conduct a systematic analysis of its capabilities and behaviors. We then analyze the key biases in fine-tuning LLM as a judge and consider them as position bias, knowledge bias, and format bias. To address these issues, JudgeLM introduces a bag of techniques including swap augmentation, reference support, and reference drop, which clearly enhance the judge's performance. JudgeLM obtains the state-of-the-art judge performance on both the existing PandaLM benchmark and our proposed new benchmark. Our JudgeLM is efficient and the JudgeLM-7B only needs 3 minutes to judge 5K samples with 8 A100 GPUs. JudgeLM obtains high agreement with the teacher judge, achieving an agreement exceeding 90% that even surpasses human-to-human agreement. JudgeLM also demonstrates extended capabilities in being judges of the single answer, multimodal models, multiple answers, and multi-turn chat.

JudgeLM: Modelos de Lenguaje Grande ajustados son Jueces Escalables

JudgeLM: Fine-tuned Large Language Models are Scalable Judges

Resumen

Support