Evaluación de Juez Causal: Métricas Substitutivas Calibradas para Sistemas de LLM
Causal Judge Evaluation: Calibrated Surrogate Metrics for LLM Systems
December 11, 2025
Autores: Eddie Landesberg
cs.AI
Resumen
La evaluación LLM-como-juez se ha convertido en el estándar de facto para escalar la evaluación de modelos, pero la práctica es estadísticamente incorrecta: las puntuaciones no calibradas pueden invertir las preferencias, los intervalos de confianza ingenuos sobre puntuaciones no calibradas alcanzan una cobertura cercana al 0%, y los estimadores ponderados por importancia colapsan bajo superposición limitada a pesar de un tamaño de muestra efectivo (TME) alto. Introducimos la Evaluación Causal de Jueces (ECJ), un marco que corrige los tres fallos. En n=4,961 prompts de Chatbot Arena (tras filtrar de 5k), la ECJ logra un 99% de precisión en la clasificación por pares con el tamaño de muestra completo (94% en promedio entre configuraciones), igualando la calidad del oráculo, con un coste 14 veces menor (para clasificar 5 políticas) mediante la calibración de un juez 16 veces más económico usando solo un 5% de etiquetas del oráculo (~250 etiquetas). La ECJ combina tres componentes: (i) AutoCal-R, calibración de recompensa mediante regresión isotónica de media conservada; (ii) SIMCal-W, estabilización de pesos mediante *stacking* de candidatos S-monótonos; y (iii) Inferencia Consciente de la Incertidumbre del Oráculo (ICIO) que propaga la incertidumbre de calibración a los intervalos de confianza. Formalizamos el diagnóstico de Eficiencia Limitada por Cobertura (ELC), que explica por qué los estimadores estilo IPS fallan incluso cuando el TME supera el 90%: el registrador rara vez visita regiones donde se concentran las políticas objetivo. Hallazgos clave: SNIPS invierte las clasificaciones incluso con calibración de recompensa (38% por pares, tau de Kendall negativo) debido a la inestabilidad de los pesos; IPS calibrado permanece casi aleatorio (47%) a pesar de la estabilización de pesos, consistente con ELC; ICIO mejora la cobertura de cerca del 0% a ~86% (Directo) y ~96% (*stacked-DR*), donde los intervalos ingenuos sub-cubren severamente.
English
LLM-as-judge evaluation has become the de facto standard for scaling model assessment, but the practice is statistically unsound: uncalibrated scores can invert preferences, naive confidence intervals on uncalibrated scores achieve near-0% coverage, and importance-weighted estimators collapse under limited overlap despite high effective sample size (ESS). We introduce Causal Judge Evaluation (CJE), a framework that fixes all three failures. On n=4,961 Chatbot Arena prompts (after filtering from 5k), CJE achieves 99% pairwise ranking accuracy at full sample size (94% averaged across configurations), matching oracle quality, at 14x lower cost (for ranking 5 policies) by calibrating a 16x cheaper judge on just 5% oracle labels (~250 labels). CJE combines three components: (i) AutoCal-R, reward calibration via mean-preserving isotonic regression; (ii) SIMCal-W, weight stabilization via stacking of S-monotone candidates; and (iii) Oracle-Uncertainty Aware (OUA) inference that propagates calibration uncertainty into confidence intervals. We formalize the Coverage-Limited Efficiency (CLE) diagnostic, which explains why IPS-style estimators fail even when ESS exceeds 90%: the logger rarely visits regions where target policies concentrate. Key findings: SNIPS inverts rankings even with reward calibration (38% pairwise, negative Kendall's tau) due to weight instability; calibrated IPS remains near-random (47%) despite weight stabilization, consistent with CLE; OUA improves coverage from near-0% to ~86% (Direct) and ~96% (stacked-DR), where naive intervals severely under-cover.