CompassJudger-1: オールインワン判定モデルがモデルの評価と進化を支援します
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
October 21, 2024
著者: Maosong Cao, Alexander Lam, Haodong Duan, Hongwei Liu, Songyang Zhang, Kai Chen
cs.AI
要旨
大規模言語モデル(LLMs)の継続的な改善において、効率的かつ正確な評価は重要です。様々な評価方法の中で、主観的評価は現実世界の使用シナリオや人間の好みとの優れた整合性から、注目を集めています。しかし、人間に基づく評価はコストがかかり再現性に欠けるため、このプロセスにおいて正確な自動評価者(ジャッジャー)が不可欠です。本報告書では、最初のオープンソースのオールインワンジャッジLLMであるCompassJudger-1を紹介します。CompassJudger-1は汎用性の高いLLMであり、驚異的な柔軟性を示しています。CompassJudger-1は以下のことが可能です:1. 報酬モデルとしての単一スコアリングおよび2つのモデル比較を実行すること、2. 指定された形式に従った評価を行うこと、3. 批評を生成すること、4. 一般的なLLMのように多様なタスクを実行すること。異なるジャッジャーモデルの評価能力を統一された環境で評価するために、様々な主観的評価タスクを網羅し幅広いトピックをカバーする新しいベンチマークであるJudgerBenchを設立しました。CompassJudger-1は、様々な評価タスクに対する包括的なソリューションを提供し、同時に多様な要件に適応する柔軟性を維持しています。CompassJudgerとJudgerBenchは、https://github.com/open-compass/CompassJudgerでリリースされ、研究コミュニティに利用可能です。これらのツールをオープンソース化することで、LLM評価方法論の進歩を促進し、協力を促進できると考えています。
English
Efficient and accurate evaluation is crucial for the continuous improvement
of large language models (LLMs). Among various assessment methods, subjective
evaluation has garnered significant attention due to its superior alignment
with real-world usage scenarios and human preferences. However, human-based
evaluations are costly and lack reproducibility, making precise automated
evaluators (judgers) vital in this process. In this report, we introduce
CompassJudger-1, the first open-source all-in-one judge LLM.
CompassJudger-1 is a general-purpose LLM that demonstrates remarkable
versatility. It is capable of: 1. Performing unitary scoring and two-model
comparisons as a reward model; 2. Conducting evaluations according to specified
formats; 3. Generating critiques; 4. Executing diverse tasks like a general
LLM. To assess the evaluation capabilities of different judge models under a
unified setting, we have also established JudgerBench, a new benchmark
that encompasses various subjective evaluation tasks and covers a wide range of
topics. CompassJudger-1 offers a comprehensive solution for various evaluation
tasks while maintaining the flexibility to adapt to diverse requirements. Both
CompassJudger and JudgerBench are released and available to the research
community athttps://github.com/open-compass/CompassJudger. We believe that by
open-sourcing these tools, we can foster collaboration and accelerate progress
in LLM evaluation methodologies.Summary
AI-Generated Summary