ChatPaper.aiChatPaper

Causaal Beoordelingsonderzoek: Gekalibreerde Surrogaatmetrieken voor LLM-systemen

Causal Judge Evaluation: Calibrated Surrogate Metrics for LLM Systems

December 11, 2025
Auteurs: Eddie Landesberg
cs.AI

Samenvatting

LLM-as-judge-evaluatie is de facto de standaard geworden voor het opschalen van modelbeoordeling, maar de praktijk is statistisch onjuist: ongecalibreerde scores kunnen voorkeuren omkeren, naïeve betrouwbaarheidsintervallen voor ongecalibreerde scores bereiken een dekking van bijna 0%, en importance-weighted schatters vallen samen onder beperkte overlap ondanks een hoge effectieve steekproefomvang (ESS). Wij introduceren Causal Judge Evaluation (CJE), een raamwerk dat alle drie de tekortkomingen verhelpt. Op n=4.961 Chatbot Arena-prompts (na filtering vanaf 5k) bereikt CJE 99% paarsgewijze rangschikkingsnauwkeurigheid bij volledige steekproefomvang (94% gemiddeld over configuraties), wat overeenkomt met de kwaliteit van een oracle, tegen 14x lagere kosten (voor het rangschikken van 5 beleidsregels) door een 16x goedkopere beoordelaar te kalibreren met slechts 5% oracle-labels (~250 labels). CJE combineert drie componenten: (i) AutoCal-R, beloningskalibratie via gemiddelde-behoudende isotone regressie; (ii) SIMCal-W, gewichtsstabilisatie via stacking van S-monotone kandidaten; en (iii) Oracle-Onzekerheidsbewuste (OUA) inferentie die kalibratieonzekerheid doorvoert in betrouwbaarheidsintervallen. Wij formaliseren de Coverage-Limited Efficiency (CLE) diagnostiek, die verklaart waarom IPS-stijl schatters falen zelfs wanneer ESS meer dan 90% bedraagt: de logger bezoekt zelden regio's waar doelbeleidsregels geconcentreerd zijn. Belangrijkste bevindingen: SNIPS keert rangschikkingen om zelfs met beloningskalibratie (38% paarsgewijs, negatieve Kendall's tau) door gewichtsinstabiliteit; gekalibreerde IPS blijft bijna willekeurig (47%) ondanks gewichtsstabilisatie, in overeenstemming met CLE; OUA verbetert de dekking van bijna 0% naar ~86% (Direct) en ~96% (gestapelde-DR), waar naïeve intervallen ernstig onder-dekken.
English
LLM-as-judge evaluation has become the de facto standard for scaling model assessment, but the practice is statistically unsound: uncalibrated scores can invert preferences, naive confidence intervals on uncalibrated scores achieve near-0% coverage, and importance-weighted estimators collapse under limited overlap despite high effective sample size (ESS). We introduce Causal Judge Evaluation (CJE), a framework that fixes all three failures. On n=4,961 Chatbot Arena prompts (after filtering from 5k), CJE achieves 99% pairwise ranking accuracy at full sample size (94% averaged across configurations), matching oracle quality, at 14x lower cost (for ranking 5 policies) by calibrating a 16x cheaper judge on just 5% oracle labels (~250 labels). CJE combines three components: (i) AutoCal-R, reward calibration via mean-preserving isotonic regression; (ii) SIMCal-W, weight stabilization via stacking of S-monotone candidates; and (iii) Oracle-Uncertainty Aware (OUA) inference that propagates calibration uncertainty into confidence intervals. We formalize the Coverage-Limited Efficiency (CLE) diagnostic, which explains why IPS-style estimators fail even when ESS exceeds 90%: the logger rarely visits regions where target policies concentrate. Key findings: SNIPS inverts rankings even with reward calibration (38% pairwise, negative Kendall's tau) due to weight instability; calibrated IPS remains near-random (47%) despite weight stabilization, consistent with CLE; OUA improves coverage from near-0% to ~86% (Direct) and ~96% (stacked-DR), where naive intervals severely under-cover.
PDF42December 17, 2025