CompassJudger-1: Modelo de Juez Todo en Uno Ayuda en la Evaluación y Evolución del Modelo
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
October 21, 2024
Autores: Maosong Cao, Alexander Lam, Haodong Duan, Hongwei Liu, Songyang Zhang, Kai Chen
cs.AI
Resumen
La evaluación eficiente y precisa es crucial para la mejora continua de los modelos de lenguaje grandes (LLMs). Entre varios métodos de evaluación, la evaluación subjetiva ha recibido una atención significativa debido a su alineación superior con escenarios de uso del mundo real y preferencias humanas. Sin embargo, las evaluaciones basadas en humanos son costosas y carecen de reproducibilidad, lo que hace que los evaluadores automáticos precisos (jueces) sean vitales en este proceso. En este informe, presentamos CompassJudger-1, el primer juez LLM de código abierto todo en uno. CompassJudger-1 es un LLM de propósito general que demuestra una versatilidad notable. Es capaz de: 1. Realizar puntuaciones unitarias y comparaciones de dos modelos como un modelo de recompensa; 2. Realizar evaluaciones según formatos especificados; 3. Generar críticas; 4. Ejecutar diversas tareas como un LLM general. Para evaluar las capacidades de evaluación de diferentes modelos de jueces en un entorno unificado, también hemos establecido JudgerBench, un nuevo punto de referencia que abarca varias tareas de evaluación subjetiva y cubre una amplia gama de temas. CompassJudger-1 ofrece una solución integral para varias tareas de evaluación manteniendo la flexibilidad para adaptarse a diversos requisitos. Tanto CompassJudger como JudgerBench se han publicado y están disponibles para la comunidad de investigación en https://github.com/open-compass/CompassJudger. Creemos que al abrir el código de estas herramientas, podemos fomentar la colaboración y acelerar el progreso en las metodologías de evaluación de LLM.
English
Efficient and accurate evaluation is crucial for the continuous improvement
of large language models (LLMs). Among various assessment methods, subjective
evaluation has garnered significant attention due to its superior alignment
with real-world usage scenarios and human preferences. However, human-based
evaluations are costly and lack reproducibility, making precise automated
evaluators (judgers) vital in this process. In this report, we introduce
CompassJudger-1, the first open-source all-in-one judge LLM.
CompassJudger-1 is a general-purpose LLM that demonstrates remarkable
versatility. It is capable of: 1. Performing unitary scoring and two-model
comparisons as a reward model; 2. Conducting evaluations according to specified
formats; 3. Generating critiques; 4. Executing diverse tasks like a general
LLM. To assess the evaluation capabilities of different judge models under a
unified setting, we have also established JudgerBench, a new benchmark
that encompasses various subjective evaluation tasks and covers a wide range of
topics. CompassJudger-1 offers a comprehensive solution for various evaluation
tasks while maintaining the flexibility to adapt to diverse requirements. Both
CompassJudger and JudgerBench are released and available to the research
community athttps://github.com/open-compass/CompassJudger. We believe that by
open-sourcing these tools, we can foster collaboration and accelerate progress
in LLM evaluation methodologies.Summary
AI-Generated Summary