CompassJudger-2: Rumo a um Modelo de Juiz Generalista por meio de Recompensas Verificáveis
CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards
July 12, 2025
Autores: Taolin Zhang, Maosong Cao, Alexander Lam, Songyang Zhang, Kai Chen
cs.AI
Resumo
Recentemente, o papel do LLM-as-judge na avaliação de grandes modelos de linguagem ganhou destaque. No entanto, os modelos atuais de juiz sofrem com especialização estreita e robustez limitada, comprometendo sua capacidade de realizar avaliações abrangentes. Neste trabalho, apresentamos o CompassJudger-2, um novo modelo de juiz generalista que supera essas limitações por meio de uma estratégia de curadoria de dados multi-domínio orientada por tarefas. Central à nossa abordagem é a supervisão de tarefas de julgamento com recompensas verificáveis, orientando o raciocínio crítico intrínseco por meio de amostragem por rejeição para promover capacidades de julgamento robustas e generalizáveis. Introduzimos um objetivo de aprendizado refinado com perda de gradiente de política de margem para melhorar o desempenho. Empiricamente, o CompassJudger-2 alcança resultados superiores em múltiplos benchmarks de juiz e recompensa, e nosso modelo de 7B demonstra precisão de julgamento competitiva com modelos significativamente maiores, como o DeepSeek-V3 e o Qwen3-235B-A22B. Além disso, propomos o JudgerBenchV2, um benchmark abrangente que avalia a precisão de julgamento em múltiplos domínios e a consistência de classificação para padronizar a avaliação de modelos de juiz. Essas contribuições avançam o julgamento robusto e escalável de LLMs e estabelecem novos padrões de desempenho e avaliação.
English
Recently, the role of LLM-as-judge in evaluating large language models has
gained prominence. However, current judge models suffer from narrow
specialization and limited robustness, undermining their capacity for
comprehensive evaluations. In this work, we present CompassJudger-2, a novel
generalist judge model that overcomes these limitations via a task-driven,
multi-domain data curation strategy. Central to our approach is supervising
judgment tasks with verifiable rewards, guiding intrinsic critical reasoning
through rejection sampling to foster robust, generalizable judgment
capabilities. We introduce a refined learning objective with margin policy
gradient loss to enhance performance. Empirically, CompassJudger-2 achieves
superior results across multiple judge and reward benchmarks, and our 7B model
demonstrates competitive judgment accuracy with significantly larger models
like DeepSeek-V3 and Qwen3-235B-A22B. Additionally, we propose JudgerBenchV2, a
comprehensive benchmark evaluating cross-domain judgment accuracy and rank
consistency to standardize judge model evaluation. These contributions advance
robust, scalable LLM judgment and establish new performance and evaluation
standards.