CompassJudger-1: Modelo de Juiz Tudo-em-Um Auxilia na Avaliação e Evolução do Modelo
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
October 21, 2024
Autores: Maosong Cao, Alexander Lam, Haodong Duan, Hongwei Liu, Songyang Zhang, Kai Chen
cs.AI
Resumo
A avaliação eficiente e precisa é crucial para a melhoria contínua dos grandes modelos de linguagem (LLMs). Entre vários métodos de avaliação, a avaliação subjetiva tem recebido atenção significativa devido à sua excelente adequação com cenários de uso do mundo real e preferências humanas. No entanto, as avaliações baseadas em humanos são dispendiosas e carecem de reprodutibilidade, tornando os avaliadores automatizados precisos (juízes) vitais nesse processo. Neste relatório, apresentamos o CompassJudger-1, o primeiro juiz LLM de código aberto tudo-em-um. O CompassJudger-1 é um LLM de propósito geral que demonstra notável versatilidade. Ele é capaz de: 1. Realizar pontuações unitárias e comparações de dois modelos como um modelo de recompensa; 2. Conduzir avaliações de acordo com formatos especificados; 3. Gerar críticas; 4. Executar tarefas diversas como um LLM geral. Para avaliar as capacidades de avaliação de diferentes modelos de juiz em um ambiente unificado, também estabelecemos o JudgerBench, um novo benchmark que abrange várias tarefas de avaliação subjetiva e cobre uma ampla gama de tópicos. O CompassJudger-1 oferece uma solução abrangente para várias tarefas de avaliação, mantendo a flexibilidade para se adaptar a diversos requisitos. Tanto o CompassJudger quanto o JudgerBench foram lançados e estão disponíveis para a comunidade de pesquisa em https://github.com/open-compass/CompassJudger. Acreditamos que, ao disponibilizar essas ferramentas de código aberto, podemos promover a colaboração e acelerar o progresso nas metodologias de avaliação de LLMs.
English
Efficient and accurate evaluation is crucial for the continuous improvement
of large language models (LLMs). Among various assessment methods, subjective
evaluation has garnered significant attention due to its superior alignment
with real-world usage scenarios and human preferences. However, human-based
evaluations are costly and lack reproducibility, making precise automated
evaluators (judgers) vital in this process. In this report, we introduce
CompassJudger-1, the first open-source all-in-one judge LLM.
CompassJudger-1 is a general-purpose LLM that demonstrates remarkable
versatility. It is capable of: 1. Performing unitary scoring and two-model
comparisons as a reward model; 2. Conducting evaluations according to specified
formats; 3. Generating critiques; 4. Executing diverse tasks like a general
LLM. To assess the evaluation capabilities of different judge models under a
unified setting, we have also established JudgerBench, a new benchmark
that encompasses various subjective evaluation tasks and covers a wide range of
topics. CompassJudger-1 offers a comprehensive solution for various evaluation
tasks while maintaining the flexibility to adapt to diverse requirements. Both
CompassJudger and JudgerBench are released and available to the research
community athttps://github.com/open-compass/CompassJudger. We believe that by
open-sourcing these tools, we can foster collaboration and accelerate progress
in LLM evaluation methodologies.Summary
AI-Generated Summary