LLM 판사 평가, 우리는 올바른 길을 가고 있는가?
Are We on the Right Way to Assessing LLM-as-a-Judge?
December 17, 2025
저자: Yuanning Feng, Sinan Wang, Zhengxiang Cheng, Yao Wan, Dongping Chen
cs.AI
초록
LLM-as-a-Judge는 평가 방법으로 널리 채택되었으며 모델 학습에서 감독 보상 역할을 해왔습니다. 그러나 LLM-as-a-Judge를 위한 기존 벤치마크는 주로 인간이 주석을 단 기준 진실에 의존하여, 신뢰성 평가를 훼손하는 인간 편향을 도입하고 확장성에 제약을 가합니다. 이러한 한계를 극복하기 위해 우리는 인간 주석 없이도 LLM 평가자의 질을 평가하는 새로운 평가 도구인 Sage를 소개합니다. 합리적 선택 이론의 공리에 영감을 받아 Sage는 LLM-as-a-Judge를 측정하는 두 가지 새로운 관점, 즉 지역적 자기 일관성(쌍별 선호도 안정성)과 전역적 논리적 일관성(전체 선호도 집합 간의 이행성)을 도입합니다. 우리는 구조화된 벤치마크 문제와 실제 사용자 질의를 결합하여 650개의 질문으로 구성된 데이터셋을 구축했습니다. 우리의 실험은 우리 메트릭의 안정성과 LLMBar, RewardBench2와 같은 감독형 벤치마크와의 높은 상관관계를 입증하여, Sage가 LLM-as-a-Judge의 강건성과 정확성을 평가하는 도구로서의 신뢰성을 확인해줍니다. Sage를 기반으로 우리는 현재 최첨단 LLM들이 점수 매기기와 쌍별 비교 설정 모두에서 평가자 역할을 할 때 상당한 신뢰성 문제를 보인다는 사실을 밝혔습니다. 최고 성능 모델인 Gemini-2.5-Pro와 GPT-5조차도 어려운 사례의 약 4분의 1에서 일관된 선호도를 유지하지 못했습니다. 우리는 이를 상황적 선호라는 새로운 현상으로 귀결짓는데, 이는 명시적인 채점 기준이나 평가 기준이 모델이 답변 쌍에 걸쳐 일관되게 판단하도록 돕는 이유를 설명합니다. 우리의 추가 분석은 미세 조정된 LLM-as-a-Judge가 성능 향상에 실현 가능한 방법이며, 패널 기반 평가자와 심층 추론이 판단 일관성을 향상시킬 수 있음을 보여줍니다. 우리는 또한 인간 판단에서 상당한 불일치를 발견하여, 인간 주석이 신뢰할 수 있는 황금 표준이 아닐 수 있음을 시사합니다.
English
LLM-as-a-Judge has been widely adopted as an evaluation method and served as supervised rewards in model training. However, existing benchmarks for LLM-as-a-Judge are mainly relying on human-annotated ground truth, which introduces human bias that undermines the assessment of reliability and imposes scalability constraints. To overcome these limitations, we introduce Sage, a novel evaluation suite that assesses the quality of LLM judges without necessitating any human annotation. Inspired by axioms of rational choice theory, Sage introduces two new lenses for measuring LLM-as-a-Judge: local self-consistency (pair-wise preference stability) and global logical consistency (transitivity across a full set of preferences). We curate a dataset of 650 questions by combining structured benchmark problems with real-world user queries. Our experiments demonstrate both the stability of our metrics and their high correlation with supervised benchmarks like LLMBar and RewardBench2, confirming Sage's reliability as an evaluation suite for the robustness and accuracy of LLM-as-a-Judge. Based on Sage, we reveal that current state-of-the-art LLMs exhibit significant reliability problems when acting as judges in both scoring and pairwise settings; even the top-performing models, Gemini-2.5-Pro and GPT-5, fail to maintain consistent preferences in nearly a quarter of difficult cases. We attribute this to a new phenomenon called situational preference, which explains why explicit rubrics or criteria can help the model judge consistently across answer pairs. Our further analysis shows that finetuned LLM-as-a-Judge is a feasible method to boost performance, and the panel-based judge as well as deep reasoning can enhance the judging consistency. We also find substantial inconsistency in human judgments, which indicates that human annotation may not be a reliable gold standard.