ChatPaper.aiChatPaper

Valutazione del Giudice Causale: Metriche Surrogate Calibrate per Sistemi LLM

Causal Judge Evaluation: Calibrated Surrogate Metrics for LLM Systems

December 11, 2025
Autori: Eddie Landesberg
cs.AI

Abstract

La valutazione LLM-as-judge è diventata lo standard de facto per scalare la valutazione dei modelli, ma questa pratica è statisticamente inaffidabile: punteggi non calibrati possono invertire le preferenze, gli intervalli di confidenza ingenui su punteggi non calibrati raggiungono una copertura prossima allo 0%, e gli stimatori importance-weighted collassano in caso di limited overlap nonostante un'elevata dimensione campionaria efficace (ESS). Introduciamo la Causal Judge Evaluation (CJE), un framework che corregge tutti e tre questi fallimenti. Su n=4.961 prompt di Chatbot Arena (dopo filtraggio da 5k), CJE raggiunge un'accuratezza di ranking pairwise del 99% a dimensione campionaria completa (94% in media tra le configurazioni), eguagliando la qualità di un oracolo, con un costo 14 volte inferiore (per classificare 5 policy) calibrando un giudice 16 volte più economico su appena il 5% di etichette oracolo (~250 etichette). CJE combina tre componenti: (i) AutoCal-R, calibrazione della reward tramite regressione isotonica mean-preserving; (ii) SIMCal-W, stabilizzazione dei pesi tramite stacking di candidati S-monotoni; e (iii) inferenza Oracle-Uncertainty Aware (OUA) che propaga l'incertezza di calibrazione negli intervalli di confidenza. Formalizziamo la diagnosi Coverage-Limited Efficiency (CLE), che spiega perché gli stimatori in stile IPS falliscono anche quando l'ESS supera il 90%: il logger visita raramente le regioni in cui le policy target si concentrano. Risultati chiave: SNIPS inverte i ranking anche con calibrazione della reward (38% pairwise, tau di Kendall negativo) a causa dell'instabilità dei pesi; IPS calibrato rimane quasi casuale (47%) nonostante la stabilizzazione dei pesi, in linea con CLE; OUA migliora la copertura da quasi 0% a ~86% (Direct) e ~96% (stacked-DR), mentre gli intervalli ingenui sottostimano gravemente la copertura.
English
LLM-as-judge evaluation has become the de facto standard for scaling model assessment, but the practice is statistically unsound: uncalibrated scores can invert preferences, naive confidence intervals on uncalibrated scores achieve near-0% coverage, and importance-weighted estimators collapse under limited overlap despite high effective sample size (ESS). We introduce Causal Judge Evaluation (CJE), a framework that fixes all three failures. On n=4,961 Chatbot Arena prompts (after filtering from 5k), CJE achieves 99% pairwise ranking accuracy at full sample size (94% averaged across configurations), matching oracle quality, at 14x lower cost (for ranking 5 policies) by calibrating a 16x cheaper judge on just 5% oracle labels (~250 labels). CJE combines three components: (i) AutoCal-R, reward calibration via mean-preserving isotonic regression; (ii) SIMCal-W, weight stabilization via stacking of S-monotone candidates; and (iii) Oracle-Uncertainty Aware (OUA) inference that propagates calibration uncertainty into confidence intervals. We formalize the Coverage-Limited Efficiency (CLE) diagnostic, which explains why IPS-style estimators fail even when ESS exceeds 90%: the logger rarely visits regions where target policies concentrate. Key findings: SNIPS inverts rankings even with reward calibration (38% pairwise, negative Kendall's tau) due to weight instability; calibrated IPS remains near-random (47%) despite weight stabilization, consistent with CLE; OUA improves coverage from near-0% to ~86% (Direct) and ~96% (stacked-DR), where naive intervals severely under-cover.
PDF42December 17, 2025