CompassJudger-2: Verso un Modello Giudice Generalista tramite Ricompense Verificabili
CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards
July 12, 2025
Autori: Taolin Zhang, Maosong Cao, Alexander Lam, Songyang Zhang, Kai Chen
cs.AI
Abstract
Recentemente, il ruolo di LLM-as-judge nella valutazione dei grandi modelli linguistici ha acquisito importanza. Tuttavia, gli attuali modelli giudicanti soffrono di una specializzazione ristretta e di una robustezza limitata, compromettendo la loro capacità di valutazioni complete. In questo lavoro, presentiamo CompassJudger-2, un nuovo modello giudicante generalista che supera queste limitazioni attraverso una strategia di curatela dei dati multi-dominio guidata dai compiti. Elemento centrale del nostro approccio è la supervisione dei compiti di giudizio con ricompense verificabili, guidando il ragionamento critico intrinseco attraverso il campionamento di rifiuto per favorire capacità di giudizio robuste e generalizzabili. Introduciamo un obiettivo di apprendimento raffinato con una perdita di gradiente della politica a margine per migliorare le prestazioni. Empiricamente, CompassJudger-2 ottiene risultati superiori su più benchmark di giudizio e ricompensa, e il nostro modello da 7B dimostra un'accuratezza di giudizio competitiva con modelli significativamente più grandi come DeepSeek-V3 e Qwen3-235B-A22B. Inoltre, proponiamo JudgerBenchV2, un benchmark completo che valuta l'accuratezza del giudizio cross-dominio e la coerenza del ranking per standardizzare la valutazione dei modelli giudicanti. Questi contributi avanzano verso un giudizio LLM robusto e scalabile e stabiliscono nuovi standard di prestazione e valutazione.
English
Recently, the role of LLM-as-judge in evaluating large language models has
gained prominence. However, current judge models suffer from narrow
specialization and limited robustness, undermining their capacity for
comprehensive evaluations. In this work, we present CompassJudger-2, a novel
generalist judge model that overcomes these limitations via a task-driven,
multi-domain data curation strategy. Central to our approach is supervising
judgment tasks with verifiable rewards, guiding intrinsic critical reasoning
through rejection sampling to foster robust, generalizable judgment
capabilities. We introduce a refined learning objective with margin policy
gradient loss to enhance performance. Empirically, CompassJudger-2 achieves
superior results across multiple judge and reward benchmarks, and our 7B model
demonstrates competitive judgment accuracy with significantly larger models
like DeepSeek-V3 and Qwen3-235B-A22B. Additionally, we propose JudgerBenchV2, a
comprehensive benchmark evaluating cross-domain judgment accuracy and rank
consistency to standardize judge model evaluation. These contributions advance
robust, scalable LLM judgment and establish new performance and evaluation
standards.