CompassJudger-1: Модель-судья всё-в-одном помогает оценке и эволюции модели.
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
October 21, 2024
Авторы: Maosong Cao, Alexander Lam, Haodong Duan, Hongwei Liu, Songyang Zhang, Kai Chen
cs.AI
Аннотация
Эффективная и точная оценка является ключевой для непрерывного улучшения больших языковых моделей (БЯМ). Среди различных методов оценки субъективная оценка привлекла значительное внимание благодаря своему превосходному соответствию реальным сценариям использования и предпочтениям людей. Однако оценки на основе людей затратны и лишены воспроизводимости, что делает точные автоматизированные оценщики (судьи) жизненно важными в этом процессе. В данном отчете мы представляем CompassJudger-1, первый открытый универсальный судейский БЯМ.
CompassJudger-1 - это универсальный БЯМ, который проявляет замечательную гибкость. Он способен: 1. Выполнять единичную оценку и сравнение двух моделей в качестве модели вознаграждения; 2. Проводить оценки в соответствии с заданными форматами; 3. Генерировать критики; 4. Выполнять разнообразные задачи, как общий БЯМ. Для оценки возможностей оценки различных моделей судей в единой среде мы также создали JudgerBench, новый бенчмарк, который охватывает различные субъективные задачи оценки и охватывает широкий спектр тематик. CompassJudger-1 предлагает всестороннее решение для различных задач оценки, сохраняя гибкость для адаптации к различным требованиям. Как CompassJudger, так и JudgerBench выпущены и доступны научному сообществу по адресу https://github.com/open-compass/CompassJudger. Мы считаем, что путем открытия исходного кода этих инструментов мы можем способствовать сотрудничеству и ускорить прогресс в методологиях оценки БЯМ.
English
Efficient and accurate evaluation is crucial for the continuous improvement
of large language models (LLMs). Among various assessment methods, subjective
evaluation has garnered significant attention due to its superior alignment
with real-world usage scenarios and human preferences. However, human-based
evaluations are costly and lack reproducibility, making precise automated
evaluators (judgers) vital in this process. In this report, we introduce
CompassJudger-1, the first open-source all-in-one judge LLM.
CompassJudger-1 is a general-purpose LLM that demonstrates remarkable
versatility. It is capable of: 1. Performing unitary scoring and two-model
comparisons as a reward model; 2. Conducting evaluations according to specified
formats; 3. Generating critiques; 4. Executing diverse tasks like a general
LLM. To assess the evaluation capabilities of different judge models under a
unified setting, we have also established JudgerBench, a new benchmark
that encompasses various subjective evaluation tasks and covers a wide range of
topics. CompassJudger-1 offers a comprehensive solution for various evaluation
tasks while maintaining the flexibility to adapt to diverse requirements. Both
CompassJudger and JudgerBench are released and available to the research
community athttps://github.com/open-compass/CompassJudger. We believe that by
open-sourcing these tools, we can foster collaboration and accelerate progress
in LLM evaluation methodologies.Summary
AI-Generated Summary