ChatPaper.aiChatPaper

Causal Judge Evaluation: Kalibrierte Ersatzmetriken für LLM-Systeme

Causal Judge Evaluation: Calibrated Surrogate Metrics for LLM Systems

December 11, 2025
papers.authors: Eddie Landesberg
cs.AI

papers.abstract

Die Bewertung mit LLM-as-Judge hat sich zum De-facto-Standard für die Skalierung von Modellbewertungen entwickelt, doch die Methode ist statistisch unzuverlässig: unkalibrierte Scores können Präferenzen umkehren, naive Konfidenzintervalle für unkalibrierte Scores erreichen eine Abdeckung von fast 0%, und importance-weighted Schätzer brechen zusammen, wenn nur begrenzte Überlappung vorliegt – trotz hoher effektiver Stichprobengröße (ESS). Wir stellen Causal Judge Evaluation (CJE) vor, ein Framework, das alle drei Probleme behebt. Auf n=4.961 Chatbot Arena Prompts (nach Filterung aus 5k) erreicht CJE bei voller Stichprobengröße eine paarweise Ranking-Genauigkeit von 99% (im Durchschnitt über alle Konfigurationen 94%), was der Qualität eines Oracle entspricht, bei 14-fach geringeren Kosten (für das Ranking von 5 Policies), indem ein 16-fach günstigerer Judge mit nur 5% Oracle-Labels (~250 Labels) kalibriert wird. CJE kombiniert drei Komponenten: (i) AutoCal-R, Reward-Kalibrierung mittels mittelwerterhaltender isotoner Regression; (ii) SIMCal-W, Gewichtsstabilisierung durch Stacking von S-monotonen Kandidaten; und (iii) Oracle-Uncertainty Aware (OUA) Inferenz, die Kalibrierungsunsicherheit in Konfidenzintervalle propagiert. Wir formalisieren die Coverage-Limited Efficiency (CLE)-Diagnose, die erklärt, warum IPS-artige Schätzer versagen, selbst wenn die ESS 90% übersteigt: Der Logger besucht selten Regionen, in denen sich die Ziel-Policies konzentrieren. Wichtige Erkenntnisse: SNIPS kehrt Rankings selbst mit Reward-Kalibrierung um (38% paarweise, negativer Kendall's Tau) aufgrund von Gewichtsinstabilität; kalibriertes IPS bleibt trotz Gewichtsstabilisierung nahezu zufällig (47%), was mit CLE konsistent ist; OUA verbessert die Abdeckung von nahe 0% auf ~86% (Direct) und ~96% (stacked-DR), während naive Intervalle stark unterdecken.
English
LLM-as-judge evaluation has become the de facto standard for scaling model assessment, but the practice is statistically unsound: uncalibrated scores can invert preferences, naive confidence intervals on uncalibrated scores achieve near-0% coverage, and importance-weighted estimators collapse under limited overlap despite high effective sample size (ESS). We introduce Causal Judge Evaluation (CJE), a framework that fixes all three failures. On n=4,961 Chatbot Arena prompts (after filtering from 5k), CJE achieves 99% pairwise ranking accuracy at full sample size (94% averaged across configurations), matching oracle quality, at 14x lower cost (for ranking 5 policies) by calibrating a 16x cheaper judge on just 5% oracle labels (~250 labels). CJE combines three components: (i) AutoCal-R, reward calibration via mean-preserving isotonic regression; (ii) SIMCal-W, weight stabilization via stacking of S-monotone candidates; and (iii) Oracle-Uncertainty Aware (OUA) inference that propagates calibration uncertainty into confidence intervals. We formalize the Coverage-Limited Efficiency (CLE) diagnostic, which explains why IPS-style estimators fail even when ESS exceeds 90%: the logger rarely visits regions where target policies concentrate. Key findings: SNIPS inverts rankings even with reward calibration (38% pairwise, negative Kendall's tau) due to weight instability; calibrated IPS remains near-random (47%) despite weight stabilization, consistent with CLE; OUA improves coverage from near-0% to ~86% (Direct) and ~96% (stacked-DR), where naive intervals severely under-cover.
PDF42December 17, 2025