CompassJudger-2: К универсальной модели оценки через верифицируемые вознаграждения
CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards
July 12, 2025
Авторы: Taolin Zhang, Maosong Cao, Alexander Lam, Songyang Zhang, Kai Chen
cs.AI
Аннотация
В последнее время роль LLM-как-судей в оценке больших языковых моделей приобрела значительную популярность. Однако современные модели-судьи страдают от узкой специализации и ограниченной устойчивости, что снижает их способность к всесторонним оценкам. В данной работе мы представляем CompassJudger-2 — новую модель-судью общего назначения, которая преодолевает эти ограничения с помощью стратегии курирования данных, ориентированной на задачи и охватывающей несколько доменов. Ключевым элементом нашего подхода является контроль задач оценки с использованием проверяемых вознаграждений, направляющих внутреннее критическое мышление через метод отбора с отклонением, что способствует развитию устойчивых и обобщаемых способностей к оценке. Мы вводим усовершенствованную целевую функцию с функцией потерь на основе градиента политики с запасом для повышения производительности. Эмпирически CompassJudger-2 демонстрирует превосходные результаты на множестве тестов для судей и вознаграждений, а наша 7B модель показывает конкурентоспособную точность оценок по сравнению с значительно более крупными моделями, такими как DeepSeek-V3 и Qwen3-235B-A22B. Кроме того, мы предлагаем JudgerBenchV2 — комплексный эталонный тест, оценивающий точность оценок и согласованность ранжирования в различных доменах, чтобы стандартизировать оценку моделей-судей. Эти вклады способствуют развитию устойчивых и масштабируемых методов оценки LLM и устанавливают новые стандарты производительности и оценки.
English
Recently, the role of LLM-as-judge in evaluating large language models has
gained prominence. However, current judge models suffer from narrow
specialization and limited robustness, undermining their capacity for
comprehensive evaluations. In this work, we present CompassJudger-2, a novel
generalist judge model that overcomes these limitations via a task-driven,
multi-domain data curation strategy. Central to our approach is supervising
judgment tasks with verifiable rewards, guiding intrinsic critical reasoning
through rejection sampling to foster robust, generalizable judgment
capabilities. We introduce a refined learning objective with margin policy
gradient loss to enhance performance. Empirically, CompassJudger-2 achieves
superior results across multiple judge and reward benchmarks, and our 7B model
demonstrates competitive judgment accuracy with significantly larger models
like DeepSeek-V3 and Qwen3-235B-A22B. Additionally, we propose JudgerBenchV2, a
comprehensive benchmark evaluating cross-domain judgment accuracy and rank
consistency to standardize judge model evaluation. These contributions advance
robust, scalable LLM judgment and establish new performance and evaluation
standards.