CompassJudger-2: Auf dem Weg zu einem generalistischen Bewertungsmodell durch verifizierbare Belohnungen
CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards
July 12, 2025
papers.authors: Taolin Zhang, Maosong Cao, Alexander Lam, Songyang Zhang, Kai Chen
cs.AI
papers.abstract
Kürzlich hat die Rolle von LLM-as-Judge bei der Bewertung großer Sprachmodelle an Bedeutung gewonnen. Allerdings leiden aktuelle Richtermodelle unter enger Spezialisierung und begrenzter Robustheit, was ihre Fähigkeit zu umfassenden Bewertungen beeinträchtigt. In dieser Arbeit stellen wir CompassJudger-2 vor, ein neuartiges generalistisches Richtermodell, das diese Einschränkungen durch eine aufgabengetriebene, multidisziplinäre Datenkuratierungsstrategie überwindet. Kern unseres Ansatzes ist die Überwachung von Bewertungsaufgaben mit überprüfbaren Belohnungen, die intrinsisches kritisches Denken durch Ablehnungsstichproben fördern, um robuste, verallgemeinerbare Bewertungsfähigkeiten zu entwickeln. Wir führen ein verfeinertes Lernziel mit Margin-Policy-Gradient-Verlust ein, um die Leistung zu steigern. Empirisch erzielt CompassJudger-2 überlegene Ergebnisse in mehreren Richter- und Belohnungsbenchmarks, und unser 7B-Modell zeigt eine wettbewerbsfähige Bewertungsgenauigkeit im Vergleich zu deutlich größeren Modellen wie DeepSeek-V3 und Qwen3-235B-A22B. Zusätzlich schlagen wir JudgerBenchV2 vor, einen umfassenden Benchmark, der die domänenübergreifende Bewertungsgenauigkeit und Rangkonsistenz evaluiert, um die Bewertung von Richtermodellen zu standardisieren. Diese Beiträge fördern robuste, skalierbare LLM-Bewertungen und setzen neue Leistungs- und Bewertungsstandards.
English
Recently, the role of LLM-as-judge in evaluating large language models has
gained prominence. However, current judge models suffer from narrow
specialization and limited robustness, undermining their capacity for
comprehensive evaluations. In this work, we present CompassJudger-2, a novel
generalist judge model that overcomes these limitations via a task-driven,
multi-domain data curation strategy. Central to our approach is supervising
judgment tasks with verifiable rewards, guiding intrinsic critical reasoning
through rejection sampling to foster robust, generalizable judgment
capabilities. We introduce a refined learning objective with margin policy
gradient loss to enhance performance. Empirically, CompassJudger-2 achieves
superior results across multiple judge and reward benchmarks, and our 7B model
demonstrates competitive judgment accuracy with significantly larger models
like DeepSeek-V3 and Qwen3-235B-A22B. Additionally, we propose JudgerBenchV2, a
comprehensive benchmark evaluating cross-domain judgment accuracy and rank
consistency to standardize judge model evaluation. These contributions advance
robust, scalable LLM judgment and establish new performance and evaluation
standards.