Zijn we op de juiste weg bij het beoordelen van LLM-als-rechter?
Are We on the Right Way to Assessing LLM-as-a-Judge?
December 17, 2025
Auteurs: Yuanning Feng, Sinan Wang, Zhengxiang Cheng, Yao Wan, Dongping Chen
cs.AI
Samenvatting
LLM-as-a-Judge wordt inmiddels veelvuldig gebruikt als evaluatiemethode en dient als gesuperviseerde beloning in modeltraining. Bestaande benchmarks voor LLM-as-a-Judge zijn echter voornamelijk gebaseerd op door mensen geannoteerde grondtruth, wat menselijke bias introduceert die de betrouwbaarheidsbeoordeling ondermijnt en schaalbaarheidsbeperkingen oplegt. Om deze beperkingen te overwinnen, introduceren wij Sage, een nieuwe evaluatiesuite die de kwaliteit van LLM-beoordelaars beoordeelt zonder menselijke annotatie te vereisen. Geïnspireerd door axioma's uit de rationele keuzetheorie introduceert Sage twee nieuwe invalshoeken voor het meten van LLM-as-a-Judge: lokale zelfconsistentie (paarsgewijze preferentiestabiliteit) en globale logische consistentie (transitiviteit over een volledige set voorkeuren). Wij hebben een dataset van 650 vragen samengesteld door gestructureerde benchmarkproblemen te combineren met gebruikersvragen uit de praktijk. Onze experimenten tonen zowel de stabiliteit van onze metrieken als hun hoge correlatie met gesuperviseerde benchmarks zoals LLMBar en RewardBench2 aan, wat de betrouwbaarheid van Sage als evaluatiesuite voor de robuustheid en nauwkeurigheid van LLM-as-a-Judge bevestigt. Op basis van Sage tonen wij aan dat huidige state-of-the-art LLM's aanzienlijke betrouwbaarheidsproblemen vertonen wanneer zij optreden als beoordelaar in zowel scorings- als paarsgewijze settings; zelfs de best presterende modellen, Gemini-2.5-Pro en GPT-5, slagen er niet in consistente voorkeuren te handhaven in bijna een kwart van de moeilijke gevallen. Wij schrijven dit toe aan een nieuw fenomeen genaamd situationele preferentie, dat verklaart waarom expliciete rubrieken of criteria het model kunnen helpen consistent te oordelen over antwoordparen. Onze verdere analyse toont aan dat gefinetunede LLM-as-a-Judge een haalbare methode is om de prestaties te verbeteren, en dat panelgebaseerde beoordeling evenals diep redeneren de beoordelingsconsistentie kunnen vergroten. Wij constateren ook aanzienlijke inconsistentie in menselijke oordelen, wat aangeeft dat menselijke annotatie mogelijk geen betrouwbare gouden standaard is.
English
LLM-as-a-Judge has been widely adopted as an evaluation method and served as supervised rewards in model training. However, existing benchmarks for LLM-as-a-Judge are mainly relying on human-annotated ground truth, which introduces human bias that undermines the assessment of reliability and imposes scalability constraints. To overcome these limitations, we introduce Sage, a novel evaluation suite that assesses the quality of LLM judges without necessitating any human annotation. Inspired by axioms of rational choice theory, Sage introduces two new lenses for measuring LLM-as-a-Judge: local self-consistency (pair-wise preference stability) and global logical consistency (transitivity across a full set of preferences). We curate a dataset of 650 questions by combining structured benchmark problems with real-world user queries. Our experiments demonstrate both the stability of our metrics and their high correlation with supervised benchmarks like LLMBar and RewardBench2, confirming Sage's reliability as an evaluation suite for the robustness and accuracy of LLM-as-a-Judge. Based on Sage, we reveal that current state-of-the-art LLMs exhibit significant reliability problems when acting as judges in both scoring and pairwise settings; even the top-performing models, Gemini-2.5-Pro and GPT-5, fail to maintain consistent preferences in nearly a quarter of difficult cases. We attribute this to a new phenomenon called situational preference, which explains why explicit rubrics or criteria can help the model judge consistently across answer pairs. Our further analysis shows that finetuned LLM-as-a-Judge is a feasible method to boost performance, and the panel-based judge as well as deep reasoning can enhance the judging consistency. We also find substantial inconsistency in human judgments, which indicates that human annotation may not be a reliable gold standard.