ChatPaper.aiChatPaper

Prometeo: Induciendo la capacidad de evaluación de grano fino en modelos de lenguaje

Prometheus: Inducing Fine-grained Evaluation Capability in Language Models

October 12, 2023
Autores: Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo
cs.AI

Resumen

Recientemente, el uso de un potente modelo de lenguaje de gran escala (LLM, por sus siglas en inglés) propietario (por ejemplo, GPT-4) como evaluador de respuestas extensas se ha convertido en el estándar de facto. Sin embargo, para profesionales con tareas de evaluación a gran escala y criterios personalizados en consideración (por ejemplo, legibilidad para niños), el uso de LLMs propietarios como evaluadores es poco confiable debido a su naturaleza de código cerrado, versiones no controladas y costos prohibitivos. En este trabajo, proponemos Prometheus, un LLM completamente de código abierto que iguala las capacidades de evaluación de GPT-4 cuando se acompañan los materiales de referencia adecuados (respuesta de referencia, rúbrica de puntuación). Primero construimos la Colección de Retroalimentación, un nuevo conjunto de datos que consta de 1,000 rúbricas de puntuación detalladas, 20,000 instrucciones y 100,000 respuestas y retroalimentaciones lingüísticas generadas por GPT-4. Utilizando la Colección de Retroalimentación, entrenamos Prometheus, un LLM evaluador de 13B que puede evaluar cualquier texto extenso basado en una rúbrica de puntuación personalizada proporcionada por el usuario. Los resultados experimentales muestran que Prometheus obtiene una correlación de Pearson de 0.897 con evaluadores humanos al evaluar con 45 rúbricas de puntuación personalizadas, lo que es comparable a GPT-4 (0.882) y supera ampliamente a ChatGPT (0.392). Además, la medición de la correlación con GPT-4 utilizando 1,222 rúbricas de puntuación personalizadas en cuatro benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) muestra tendencias similares, respaldando la capacidad de Prometheus como LLM evaluador. Por último, Prometheus logra la mayor precisión en dos benchmarks de preferencia humana (HHH Alignment & MT Bench Human Judgment) en comparación con modelos de recompensa de código abierto entrenados explícitamente en conjuntos de datos de preferencia humana, destacando su potencial como un modelo de recompensa universal. Hacemos público nuestro código, conjunto de datos y modelo en https://github.com/kaistAI/Prometheus.
English
Recently, using a powerful proprietary Large Language Model (LLM) (e.g., GPT-4) as an evaluator for long-form responses has become the de facto standard. However, for practitioners with large-scale evaluation tasks and custom criteria in consideration (e.g., child-readability), using proprietary LLMs as an evaluator is unreliable due to the closed-source nature, uncontrolled versioning, and prohibitive costs. In this work, we propose Prometheus, a fully open-source LLM that is on par with GPT-4's evaluation capabilities when the appropriate reference materials (reference answer, score rubric) are accompanied. We first construct the Feedback Collection, a new dataset that consists of 1K fine-grained score rubrics, 20K instructions, and 100K responses and language feedback generated by GPT-4. Using the Feedback Collection, we train Prometheus, a 13B evaluator LLM that can assess any given long-form text based on customized score rubric provided by the user. Experimental results show that Prometheus scores a Pearson correlation of 0.897 with human evaluators when evaluating with 45 customized score rubrics, which is on par with GPT-4 (0.882), and greatly outperforms ChatGPT (0.392). Furthermore, measuring correlation with GPT-4 with 1222 customized score rubrics across four benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) shows similar trends, bolstering Prometheus's capability as an evaluator LLM. Lastly, Prometheus achieves the highest accuracy on two human preference benchmarks (HHH Alignment & MT Bench Human Judgment) compared to open-sourced reward models explicitly trained on human preference datasets, highlighting its potential as an universal reward model. We open-source our code, dataset, and model at https://github.com/kaistAI/Prometheus.
PDF554December 15, 2024