На правильном ли мы пути к оценке LLM-как-судьи?
Are We on the Right Way to Assessing LLM-as-a-Judge?
December 17, 2025
Авторы: Yuanning Feng, Sinan Wang, Zhengxiang Cheng, Yao Wan, Dongping Chen
cs.AI
Аннотация
Метод LLM-as-a-Judge получил широкое распространение в качестве оценочного подхода и используется в качестве контролируемых вознаграждений при обучении моделей. Однако существующие бенчмарки для LLM-as-a-Judge в основном опираются на размеченные человеком эталонные данные, что вносит человеческое смещение, подрывающее оценку надежности и накладывающее ограничения на масштабируемость. Чтобы преодолеть эти ограничения, мы представляем Sage — новую оценочную систему, которая оценивает качество LLM-судей без необходимости какой-либо человеческой разметки. Вдохновленная аксиомами теории рационального выбора, Sage вводит два новых критерия для измерения LLM-as-a-Judge: локальную самосогласованность (устойчивость парных предпочтений) и глобальную логическую согласованность (транзитивность на полном наборе предпочтений). Мы формируем набор данных из 650 вопросов, комбинируя структурированные бенчмарки с реальными пользовательскими запросами. Наши эксперименты демонстрируют как устойчивость наших метрик, так и их высокую корреляцию с контролируемыми бенчмарками, такими как LLMBar и RewardBench2, подтверждая надежность Sage как оценочной системы для проверки робастности и точности LLM-as-a-Judge. На основе Sage мы выявляем, что современные передовые LLM демонстрируют значительные проблемы с надежностью при выполнении роли судей как в сценариях выставления баллов, так и в парных сравнениях; даже лучшие модели, Gemini-2.5-Pro и GPT-5, не могут сохранять последовательность предпочтений почти в четверти сложных случаев. Мы объясняем это новым феноменом, названным ситуативным предпочтением, который поясняет, почему явные рубрики или критерии могут помочь модели выносить последовательные суждения по парам ответов. Наш дальнейший анализ показывает, что дообученная LLM-as-a-Judge является feasible-методом для повышения производительности, а коллегиальный судья и глубокие рассуждения могут улучшить согласованность суждений. Мы также обнаруживаем существенную несогласованность в человеческих оценках, что указывает на то, что человеческая разметка может не быть надежным золотым стандартом.
English
LLM-as-a-Judge has been widely adopted as an evaluation method and served as supervised rewards in model training. However, existing benchmarks for LLM-as-a-Judge are mainly relying on human-annotated ground truth, which introduces human bias that undermines the assessment of reliability and imposes scalability constraints. To overcome these limitations, we introduce Sage, a novel evaluation suite that assesses the quality of LLM judges without necessitating any human annotation. Inspired by axioms of rational choice theory, Sage introduces two new lenses for measuring LLM-as-a-Judge: local self-consistency (pair-wise preference stability) and global logical consistency (transitivity across a full set of preferences). We curate a dataset of 650 questions by combining structured benchmark problems with real-world user queries. Our experiments demonstrate both the stability of our metrics and their high correlation with supervised benchmarks like LLMBar and RewardBench2, confirming Sage's reliability as an evaluation suite for the robustness and accuracy of LLM-as-a-Judge. Based on Sage, we reveal that current state-of-the-art LLMs exhibit significant reliability problems when acting as judges in both scoring and pairwise settings; even the top-performing models, Gemini-2.5-Pro and GPT-5, fail to maintain consistent preferences in nearly a quarter of difficult cases. We attribute this to a new phenomenon called situational preference, which explains why explicit rubrics or criteria can help the model judge consistently across answer pairs. Our further analysis shows that finetuned LLM-as-a-Judge is a feasible method to boost performance, and the panel-based judge as well as deep reasoning can enhance the judging consistency. We also find substantial inconsistency in human judgments, which indicates that human annotation may not be a reliable gold standard.