ChatPaper.aiChatPaper

Sind wir auf dem richtigen Weg zur Bewertung von LLM-as-a-Judge?

Are We on the Right Way to Assessing LLM-as-a-Judge?

December 17, 2025
papers.authors: Yuanning Feng, Sinan Wang, Zhengxiang Cheng, Yao Wan, Dongping Chen
cs.AI

papers.abstract

LLM-as-a-Judge hat sich als Evaluierungsmethode weitgehend durchgesetzt und dient als überwachte Belohnung im Modelltraining. Bisherige Benchmarks für LLM-as-a-Judge stützen sich jedoch hauptsächlich auf menschlich annotierte Ground-Truth-Daten, was menschliche Verzerrungen einbringt, die die Bewertung der Zuverlässigkeit beeinträchtigen und Skalierbarkeitsbeschränkungen auferlegen. Um diese Grenzen zu überwinden, stellen wir Sage vor, eine neuartige Evaluierungssuite, die die Qualität von LLM-Jurys bewertet, ohne menschliche Annotationen zu benötigen. Inspiriert durch Axiome der Rational-Choice-Theorie führt Sage zwei neue Betrachtungsebenen zur Messung von LLM-as-a-Judge ein: lokale Selbstkonsistenz (Stabilität paarweiser Präferenzen) und globale logische Konsistenz (Transitivität über einen vollständigen Satz von Präferenzen). Wir haben einen Datensatz von 650 Fragen kuratiert, indem wir strukturierte Benchmark-Probleme mit realen Nutzeranfragen kombiniert haben. Unsere Experimente zeigen sowohl die Stabilität unserer Metriken als auch ihre hohe Korrelation mit überwachten Benchmarks wie LLMBar und RewardBench2, was die Zuverlässigkeit von Sage als Evaluierungssuite für die Robustheit und Genauigkeit von LLM-as-a-Judge bestätigt. Auf Basis von Sage zeigen wir, dass aktuelle state-of-the-art-LLMs erhebliche Zuverlässigkeitsprobleme aufweisen, wenn sie als Jurys in sowohl Bewertungs- als auch paarweisen Settings agieren; selbst die leistungsstärksten Modelle, Gemini-2.5-Pro und GPT-5, können in fast einem Viertel der schwierigen Fälle keine konsistenten Präferenzen aufrechterhalten. Wir führen dies auf ein neues Phänomen zurück, das wir als situative Präferenz bezeichnen, welches erklärt, warum explizite Bewertungsraster oder Kriterien dem Modell helfen können, konsistent über Antwortpaare hinweg zu urteilen. Unsere weitere Analyse zeigt, dass finetuning von LLM-as-a-Judge eine praktikable Methode zur Leistungssteigerung ist und dass sowohl panel-basierte Jurys als auch tiefgehende Schlussfolgerungen die Urteilskonsistenz verbessern können. Wir stellen zudem erhebliche Inkonsistenzen in menschlichen Urteilen fest, was darauf hindeutet, dass menschliche Annotationen möglicherweise keinen verlässlichen Goldstandard darstellen.
English
LLM-as-a-Judge has been widely adopted as an evaluation method and served as supervised rewards in model training. However, existing benchmarks for LLM-as-a-Judge are mainly relying on human-annotated ground truth, which introduces human bias that undermines the assessment of reliability and imposes scalability constraints. To overcome these limitations, we introduce Sage, a novel evaluation suite that assesses the quality of LLM judges without necessitating any human annotation. Inspired by axioms of rational choice theory, Sage introduces two new lenses for measuring LLM-as-a-Judge: local self-consistency (pair-wise preference stability) and global logical consistency (transitivity across a full set of preferences). We curate a dataset of 650 questions by combining structured benchmark problems with real-world user queries. Our experiments demonstrate both the stability of our metrics and their high correlation with supervised benchmarks like LLMBar and RewardBench2, confirming Sage's reliability as an evaluation suite for the robustness and accuracy of LLM-as-a-Judge. Based on Sage, we reveal that current state-of-the-art LLMs exhibit significant reliability problems when acting as judges in both scoring and pairwise settings; even the top-performing models, Gemini-2.5-Pro and GPT-5, fail to maintain consistent preferences in nearly a quarter of difficult cases. We attribute this to a new phenomenon called situational preference, which explains why explicit rubrics or criteria can help the model judge consistently across answer pairs. Our further analysis shows that finetuned LLM-as-a-Judge is a feasible method to boost performance, and the panel-based judge as well as deep reasoning can enhance the judging consistency. We also find substantial inconsistency in human judgments, which indicates that human annotation may not be a reliable gold standard.
PDF221December 23, 2025