Évaluation du juge causal : Métriques de substitution calibrées pour les systèmes de LLM
Causal Judge Evaluation: Calibrated Surrogate Metrics for LLM Systems
December 11, 2025
papers.authors: Eddie Landesberg
cs.AI
papers.abstract
L'évaluation par LLM en tant que juge est devenue la norme de facto pour l'évolutivité de l'évaluation des modèles, mais cette pratique est statistiquement infondée : les scores non calibrés peuvent inverser les préférences, les intervalles de confiance naïfs sur des scores non calibrés atteignent une couverture proche de 0 %, et les estimateurs par pondération d'importance s'effondrent sous un recouvrement limité malgré une taille d'échantillon efficace (TEE) élevée. Nous présentons l'Évaluation Juge Causal (EJC), un cadre qui corrige ces trois échecs. Sur n=4 961 invites de Chatbot Arena (après filtrage sur 5k), l'EJC atteint une précision d'appariement par paires de 99 % à taille d'échantillon complète (94 % en moyenne sur toutes les configurations), égalant la qualité d'un oracle, pour un coût 14 fois inférieur (pour classer 5 politiques) en calibrant un juge 16 fois moins cher sur seulement 5 % d'étiquettes oracle (~250 étiquettes). L'EJC combine trois composants : (i) AutoCal-R, calibration de la récompense par régression isotonique préservant la moyenne ; (ii) SIMCal-W, stabilisation des poids par empilement de candidats S-monotones ; et (iii) une inférence Sensibilisée à l'Incertitude de l'Oracle (SIO) qui propage l'incertitude de calibration dans les intervalles de confiance. Nous formalisons le diagnostic d'Efficacité Limitée par la Couverture (ELC), qui explique pourquoi les estimateurs de type IPS échouent même lorsque la TEE dépasse 90 % : le logger visite rarement les régions où les politiques cibles se concentrent. Principaux résultats : SNIPS inverse les classements même avec calibration de la récompense (38 % d'appariement par paires, tau de Kendall négatif) en raison de l'instabilité des poids ; l'IPS calibré reste quasi aléatoire (47 %) malgré la stabilisation des poids, ce qui est cohérent avec l'ELC ; la SIO améliore la couverture de près de 0 % à ~86 % (Direct) et ~96 % (stacked-DR), là où les intervalles naïfs sous-couvrent sévèrement.
English
LLM-as-judge evaluation has become the de facto standard for scaling model assessment, but the practice is statistically unsound: uncalibrated scores can invert preferences, naive confidence intervals on uncalibrated scores achieve near-0% coverage, and importance-weighted estimators collapse under limited overlap despite high effective sample size (ESS). We introduce Causal Judge Evaluation (CJE), a framework that fixes all three failures. On n=4,961 Chatbot Arena prompts (after filtering from 5k), CJE achieves 99% pairwise ranking accuracy at full sample size (94% averaged across configurations), matching oracle quality, at 14x lower cost (for ranking 5 policies) by calibrating a 16x cheaper judge on just 5% oracle labels (~250 labels). CJE combines three components: (i) AutoCal-R, reward calibration via mean-preserving isotonic regression; (ii) SIMCal-W, weight stabilization via stacking of S-monotone candidates; and (iii) Oracle-Uncertainty Aware (OUA) inference that propagates calibration uncertainty into confidence intervals. We formalize the Coverage-Limited Efficiency (CLE) diagnostic, which explains why IPS-style estimators fail even when ESS exceeds 90%: the logger rarely visits regions where target policies concentrate. Key findings: SNIPS inverts rankings even with reward calibration (38% pairwise, negative Kendall's tau) due to weight instability; calibrated IPS remains near-random (47%) despite weight stabilization, consistent with CLE; OUA improves coverage from near-0% to ~86% (Direct) and ~96% (stacked-DR), where naive intervals severely under-cover.