CompassJudger-2: Rumo a um Modelo de Juiz Generalista por meio de Recompensas Verificáveis

Resumo

Recentemente, o papel do LLM-as-judge na avaliação de grandes modelos de linguagem ganhou destaque. No entanto, os modelos atuais de juiz sofrem com especialização estreita e robustez limitada, comprometendo sua capacidade de realizar avaliações abrangentes. Neste trabalho, apresentamos o CompassJudger-2, um novo modelo de juiz generalista que supera essas limitações por meio de uma estratégia de curadoria de dados multi-domínio orientada por tarefas. Central à nossa abordagem é a supervisão de tarefas de julgamento com recompensas verificáveis, orientando o raciocínio crítico intrínseco por meio de amostragem por rejeição para promover capacidades de julgamento robustas e generalizáveis. Introduzimos um objetivo de aprendizado refinado com perda de gradiente de política de margem para melhorar o desempenho. Empiricamente, o CompassJudger-2 alcança resultados superiores em múltiplos benchmarks de juiz e recompensa, e nosso modelo de 7B demonstra precisão de julgamento competitiva com modelos significativamente maiores, como o DeepSeek-V3 e o Qwen3-235B-A22B. Além disso, propomos o JudgerBenchV2, um benchmark abrangente que avalia a precisão de julgamento em múltiplos domínios e a consistência de classificação para padronizar a avaliação de modelos de juiz. Essas contribuições avançam o julgamento robusto e escalável de LLMs e estabelecem novos padrões de desempenho e avaliação.

English

Recently, the role of LLM-as-judge in evaluating large language models has gained prominence. However, current judge models suffer from narrow specialization and limited robustness, undermining their capacity for comprehensive evaluations. In this work, we present CompassJudger-2, a novel generalist judge model that overcomes these limitations via a task-driven, multi-domain data curation strategy. Central to our approach is supervising judgment tasks with verifiable rewards, guiding intrinsic critical reasoning through rejection sampling to foster robust, generalizable judgment capabilities. We introduce a refined learning objective with margin policy gradient loss to enhance performance. Empirically, CompassJudger-2 achieves superior results across multiple judge and reward benchmarks, and our 7B model demonstrates competitive judgment accuracy with significantly larger models like DeepSeek-V3 and Qwen3-235B-A22B. Additionally, we propose JudgerBenchV2, a comprehensive benchmark evaluating cross-domain judgment accuracy and rank consistency to standardize judge model evaluation. These contributions advance robust, scalable LLM judgment and establish new performance and evaluation standards.

CompassJudger-2: Rumo a um Modelo de Juiz Generalista por meio de Recompensas Verificáveis

CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards

Resumo

Support