CompassJudger-1: Modello di Giudice All-in-one Aiuta Valutazione ed Evoluzione dei Modelli
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
October 21, 2024
Autori: Maosong Cao, Alexander Lam, Haodong Duan, Hongwei Liu, Songyang Zhang, Kai Chen
cs.AI
Abstract
Un'efficace e accurata valutazione è cruciale per il continuo miglioramento dei grandi modelli linguistici (LLM). Tra i vari metodi di valutazione, l'analisi soggettiva ha attirato notevole attenzione per la sua superiore allineamento con scenari di utilizzo reali e preferenze umane. Tuttavia, le valutazioni basate sull'essere umano sono costose e mancano di riproducibilità, rendendo i valutatori automatizzati precisi essenziali in questo processo. In questo rapporto, presentiamo CompassJudger-1, il primo giudice LLM open-source all-in-one. CompassJudger-1 è un LLM ad uso generale che dimostra una notevole versatilità. È in grado di: 1. Effettuare valutazioni unitarie e confronti tra due modelli come modello di ricompensa; 2. Condurre valutazioni secondo formati specifici; 3. Generare critiche; 4. Eseguire varie attività come un LLM generale. Per valutare le capacità di valutazione di diversi modelli di giudice in un contesto unificato, abbiamo anche istituito JudgerBench, un nuovo benchmark che comprende varie attività di valutazione soggettiva e copre una vasta gamma di argomenti. CompassJudger-1 offre una soluzione completa per varie attività di valutazione mantenendo la flessibilità per adattarsi a diversi requisiti. Sia CompassJudger che JudgerBench sono stati rilasciati e sono disponibili alla comunità di ricerca su https://github.com/open-compass/CompassJudger. Crediamo che con la condivisione di questi strumenti possiamo favorire la collaborazione e accelerare i progressi nelle metodologie di valutazione dei LLM.
English
Efficient and accurate evaluation is crucial for the continuous improvement
of large language models (LLMs). Among various assessment methods, subjective
evaluation has garnered significant attention due to its superior alignment
with real-world usage scenarios and human preferences. However, human-based
evaluations are costly and lack reproducibility, making precise automated
evaluators (judgers) vital in this process. In this report, we introduce
CompassJudger-1, the first open-source all-in-one judge LLM.
CompassJudger-1 is a general-purpose LLM that demonstrates remarkable
versatility. It is capable of: 1. Performing unitary scoring and two-model
comparisons as a reward model; 2. Conducting evaluations according to specified
formats; 3. Generating critiques; 4. Executing diverse tasks like a general
LLM. To assess the evaluation capabilities of different judge models under a
unified setting, we have also established JudgerBench, a new benchmark
that encompasses various subjective evaluation tasks and covers a wide range of
topics. CompassJudger-1 offers a comprehensive solution for various evaluation
tasks while maintaining the flexibility to adapt to diverse requirements. Both
CompassJudger and JudgerBench are released and available to the research
community athttps://github.com/open-compass/CompassJudger. We believe that by
open-sourcing these tools, we can foster collaboration and accelerate progress
in LLM evaluation methodologies.Summary
AI-Generated Summary