CompassJudger-2: Op weg naar een generalistisch beoordelingsmodel via verifieerbare beloningen
CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards
July 12, 2025
Auteurs: Taolin Zhang, Maosong Cao, Alexander Lam, Songyang Zhang, Kai Chen
cs.AI
Samenvatting
Recentelijk heeft de rol van LLM-as-judge bij het evalueren van grote taalmodelleen aanzienlijke aandacht gekregen. Huidige beoordelingsmodellen kampen echter met een beperkte specialisatie en robuustheid, wat hun vermogen om uitgebreide evaluaties uit te voeren ondermijnt. In dit werk presenteren we CompassJudger-2, een nieuw generalistisch beoordelingsmodel dat deze beperkingen overwint via een taakgestuurde, multidisciplinaire datacuratiestrategie. Centraal in onze aanpak staat het toezicht houden op beoordelingstaken met verifieerbare beloningen, waarbij intrinsieke kritische redenering wordt gestuurd door middel van rejection sampling om robuuste, generaliseerbare beoordelingsvaardigheden te bevorderen. We introduceren een verfijnd leerdoel met margin policy gradient loss om de prestaties te verbeteren. Empirisch gezien behaalt CompassJudger-2 superieure resultaten op meerdere beoordelings- en beloningsbenchmarks, en toont ons 7B-model competitieve beoordelingsnauwkeurigheid in vergelijking met aanzienlijk grotere modellen zoals DeepSeek-V3 en Qwen3-235B-A22B. Daarnaast stellen we JudgerBenchV2 voor, een uitgebreide benchmark die cross-domein beoordelingsnauwkeurigheid en rangconsistentie evalueert om de evaluatie van beoordelingsmodellen te standaardiseren. Deze bijdragen bevorderen robuuste, schaalbare LLM-beoordeling en stellen nieuwe prestatienormen en evaluatiestandaarden vast.
English
Recently, the role of LLM-as-judge in evaluating large language models has
gained prominence. However, current judge models suffer from narrow
specialization and limited robustness, undermining their capacity for
comprehensive evaluations. In this work, we present CompassJudger-2, a novel
generalist judge model that overcomes these limitations via a task-driven,
multi-domain data curation strategy. Central to our approach is supervising
judgment tasks with verifiable rewards, guiding intrinsic critical reasoning
through rejection sampling to foster robust, generalizable judgment
capabilities. We introduce a refined learning objective with margin policy
gradient loss to enhance performance. Empirically, CompassJudger-2 achieves
superior results across multiple judge and reward benchmarks, and our 7B model
demonstrates competitive judgment accuracy with significantly larger models
like DeepSeek-V3 and Qwen3-235B-A22B. Additionally, we propose JudgerBenchV2, a
comprehensive benchmark evaluating cross-domain judgment accuracy and rank
consistency to standardize judge model evaluation. These contributions advance
robust, scalable LLM judgment and establish new performance and evaluation
standards.