CompassJudger-2: К универсальной модели оценки через верифицируемые вознаграждения

Аннотация

В последнее время роль LLM-как-судей в оценке больших языковых моделей приобрела значительную популярность. Однако современные модели-судьи страдают от узкой специализации и ограниченной устойчивости, что снижает их способность к всесторонним оценкам. В данной работе мы представляем CompassJudger-2 — новую модель-судью общего назначения, которая преодолевает эти ограничения с помощью стратегии курирования данных, ориентированной на задачи и охватывающей несколько доменов. Ключевым элементом нашего подхода является контроль задач оценки с использованием проверяемых вознаграждений, направляющих внутреннее критическое мышление через метод отбора с отклонением, что способствует развитию устойчивых и обобщаемых способностей к оценке. Мы вводим усовершенствованную целевую функцию с функцией потерь на основе градиента политики с запасом для повышения производительности. Эмпирически CompassJudger-2 демонстрирует превосходные результаты на множестве тестов для судей и вознаграждений, а наша 7B модель показывает конкурентоспособную точность оценок по сравнению с значительно более крупными моделями, такими как DeepSeek-V3 и Qwen3-235B-A22B. Кроме того, мы предлагаем JudgerBenchV2 — комплексный эталонный тест, оценивающий точность оценок и согласованность ранжирования в различных доменах, чтобы стандартизировать оценку моделей-судей. Эти вклады способствуют развитию устойчивых и масштабируемых методов оценки LLM и устанавливают новые стандарты производительности и оценки.

English

Recently, the role of LLM-as-judge in evaluating large language models has gained prominence. However, current judge models suffer from narrow specialization and limited robustness, undermining their capacity for comprehensive evaluations. In this work, we present CompassJudger-2, a novel generalist judge model that overcomes these limitations via a task-driven, multi-domain data curation strategy. Central to our approach is supervising judgment tasks with verifiable rewards, guiding intrinsic critical reasoning through rejection sampling to foster robust, generalizable judgment capabilities. We introduce a refined learning objective with margin policy gradient loss to enhance performance. Empirically, CompassJudger-2 achieves superior results across multiple judge and reward benchmarks, and our 7B model demonstrates competitive judgment accuracy with significantly larger models like DeepSeek-V3 and Qwen3-235B-A22B. Additionally, we propose JudgerBenchV2, a comprehensive benchmark evaluating cross-domain judgment accuracy and rank consistency to standardize judge model evaluation. These contributions advance robust, scalable LLM judgment and establish new performance and evaluation standards.

CompassJudger-2: К универсальной модели оценки через верифицируемые вознаграждения

CompassJudger-2: Towards Generalist Judge Model via Verifiable Rewards

Аннотация

Support