CompassJudger-2: Verso un Modello Giudice Generalista tramite Ricompense Verificabili

Abstract

Recentemente, il ruolo di LLM-as-judge nella valutazione dei grandi modelli linguistici ha acquisito importanza. Tuttavia, gli attuali modelli giudicanti soffrono di una specializzazione ristretta e di una robustezza limitata, compromettendo la loro capacità di valutazioni complete. In questo lavoro, presentiamo CompassJudger-2, un nuovo modello giudicante generalista che supera queste limitazioni attraverso una strategia di curatela dei dati multi-dominio guidata dai compiti. Elemento centrale del nostro approccio è la supervisione dei compiti di giudizio con ricompense verificabili, guidando il ragionamento critico intrinseco attraverso il campionamento di rifiuto per favorire capacità di giudizio robuste e generalizzabili. Introduciamo un obiettivo di apprendimento raffinato con una perdita di gradiente della politica a margine per migliorare le prestazioni. Empiricamente, CompassJudger-2 ottiene risultati superiori su più benchmark di giudizio e ricompensa, e il nostro modello da 7B dimostra un'accuratezza di giudizio competitiva con modelli significativamente più grandi come DeepSeek-V3 e Qwen3-235B-A22B. Inoltre, proponiamo JudgerBenchV2, un benchmark completo che valuta l'accuratezza del giudizio cross-dominio e la coerenza del ranking per standardizzare la valutazione dei modelli giudicanti. Questi contributi avanzano verso un giudizio LLM robusto e scalabile e stabiliscono nuovi standard di prestazione e valutazione.

English

Recently, the role of LLM-as-judge in evaluating large language models has gained prominence. However, current judge models suffer from narrow specialization and limited robustness, undermining their capacity for comprehensive evaluations. In this work, we present CompassJudger-2, a novel generalist judge model that overcomes these limitations via a task-driven, multi-domain data curation strategy. Central to our approach is supervising judgment tasks with verifiable rewards, guiding intrinsic critical reasoning through rejection sampling to foster robust, generalizable judgment capabilities. We introduce a refined learning objective with margin policy gradient loss to enhance performance. Empirically, CompassJudger-2 achieves superior results across multiple judge and reward benchmarks, and our 7B model demonstrates competitive judgment accuracy with significantly larger models like DeepSeek-V3 and Qwen3-235B-A22B. Additionally, we propose JudgerBenchV2, a comprehensive benchmark evaluating cross-domain judgment accuracy and rank consistency to standardize judge model evaluation. These contributions advance robust, scalable LLM judgment and establish new performance and evaluation standards.

CompassJudger-2: Verso un Modello Giudice Generalista tramite Ricompense Verificabili

CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards

Abstract

Support