CompassJudger-2 : Vers un modèle de juge généraliste via des récompenses vérifiables
CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards
July 12, 2025
papers.authors: Taolin Zhang, Maosong Cao, Alexander Lam, Songyang Zhang, Kai Chen
cs.AI
papers.abstract
Récemment, le rôle des LLM en tant qu'évaluateurs (LLM-as-judge) pour juger les grands modèles de langage a gagné en importance. Cependant, les modèles évaluateurs actuels souffrent d'une spécialisation étroite et d'une robustesse limitée, ce qui compromet leur capacité à effectuer des évaluations complètes. Dans ce travail, nous présentons CompassJudger-2, un nouveau modèle évaluateur généraliste qui surmonte ces limitations grâce à une stratégie de curation de données multi-domaines axée sur les tâches. Au cœur de notre approche se trouve la supervision des tâches d'évaluation avec des récompenses vérifiables, guidant le raisonnement critique intrinsèque via un échantillonnage par rejet pour favoriser des capacités d'évaluation robustes et généralisables. Nous introduisons un objectif d'apprentissage raffiné avec une fonction de perte de gradient de politique à marge pour améliorer les performances. Empiriquement, CompassJudger-2 obtient des résultats supérieurs sur plusieurs benchmarks d'évaluation et de récompense, et notre modèle de 7 milliards de paramètres démontre une précision d'évaluation compétitive avec des modèles nettement plus grands comme DeepSeek-V3 et Qwen3-235B-A22B. De plus, nous proposons JudgerBenchV2, un benchmark complet évaluant la précision d'évaluation inter-domaines et la cohérence des classements pour standardiser l'évaluation des modèles évaluateurs. Ces contributions font progresser l'évaluation robuste et scalable des LLM et établissent de nouveaux standards de performance et d'évaluation.
English
Recently, the role of LLM-as-judge in evaluating large language models has
gained prominence. However, current judge models suffer from narrow
specialization and limited robustness, undermining their capacity for
comprehensive evaluations. In this work, we present CompassJudger-2, a novel
generalist judge model that overcomes these limitations via a task-driven,
multi-domain data curation strategy. Central to our approach is supervising
judgment tasks with verifiable rewards, guiding intrinsic critical reasoning
through rejection sampling to foster robust, generalizable judgment
capabilities. We introduce a refined learning objective with margin policy
gradient loss to enhance performance. Empirically, CompassJudger-2 achieves
superior results across multiple judge and reward benchmarks, and our 7B model
demonstrates competitive judgment accuracy with significantly larger models
like DeepSeek-V3 and Qwen3-235B-A22B. Additionally, we propose JudgerBenchV2, a
comprehensive benchmark evaluating cross-domain judgment accuracy and rank
consistency to standardize judge model evaluation. These contributions advance
robust, scalable LLM judgment and establish new performance and evaluation
standards.