Avaliação de Julgamento Causal: Métricas Substitutas Calibradas para Sistemas de LLM

Resumo

A avaliação LLM-como-juiz tornou-se o padrão de facto para escalar a avaliação de modelos, mas a prática é estatisticamente incorreta: escores não calibrados podem inverter preferências, intervalos de confiança ingênuos sobre escores não calibrados atingem cobertura próxima de 0%, e estimadores ponderados por importância colapsam sob sobreposição limitada apesar de um tamanho amostral efetivo (ESS) alto. Apresentamos a Avaliação de Juiz Causal (CJE), uma estrutura que corrige todas as três falhas. Em n=4.961 prompts do Chatbot Arena (após filtragem de 5k), a CJE atinge 99% de precisão de classificação pareada no tamanho amostral total (94% em média entre configurações), correspondendo à qualidade do oráculo, a um custo 14x menor (para classificar 5 políticas) calibrando um juiz 16x mais barato com apenas 5% de rótulos do oráculo (~250 rótulos). A CJE combina três componentes: (i) AutoCal-R, calibração de recompensa via regressão isotônica de média preservada; (ii) SIMCal-W, estabilização de pesos via empilhamento de candidatos S-monotônicos; e (iii) inferência Ciente da Incerteza do Oráculo (OUA) que propaga a incerteza de calibração para os intervalos de confiança. Formalizamos o diagnóstico de Eficiência Limitada pela Cobertura (CLE), que explica por que estimadores no estilo IPS falham mesmo quando o ESS excede 90%: o logger raramente visita regiões onde as políticas-alvo se concentram. Principais achados: SNIPS inverte classificações mesmo com calibração de recompensa (38% pareado, tau de Kendall negativo) devido à instabilidade dos pesos; IPS calibrado permanece próximo do aleatório (47%) apesar da estabilização de pesos, consistente com o CLE; OUA melhora a cobertura de próximo de 0% para ~86% (Direto) e ~96% (DR-empilhado), onde intervalos ingênuos subcobrem severamente.

English

LLM-as-judge evaluation has become the de facto standard for scaling model assessment, but the practice is statistically unsound: uncalibrated scores can invert preferences, naive confidence intervals on uncalibrated scores achieve near-0% coverage, and importance-weighted estimators collapse under limited overlap despite high effective sample size (ESS). We introduce Causal Judge Evaluation (CJE), a framework that fixes all three failures. On n=4,961 Chatbot Arena prompts (after filtering from 5k), CJE achieves 99% pairwise ranking accuracy at full sample size (94% averaged across configurations), matching oracle quality, at 14x lower cost (for ranking 5 policies) by calibrating a 16x cheaper judge on just 5% oracle labels (~250 labels). CJE combines three components: (i) AutoCal-R, reward calibration via mean-preserving isotonic regression; (ii) SIMCal-W, weight stabilization via stacking of S-monotone candidates; and (iii) Oracle-Uncertainty Aware (OUA) inference that propagates calibration uncertainty into confidence intervals. We formalize the Coverage-Limited Efficiency (CLE) diagnostic, which explains why IPS-style estimators fail even when ESS exceeds 90%: the logger rarely visits regions where target policies concentrate. Key findings: SNIPS inverts rankings even with reward calibration (38% pairwise, negative Kendall's tau) due to weight instability; calibrated IPS remains near-random (47%) despite weight stabilization, consistent with CLE; OUA improves coverage from near-0% to ~86% (Direct) and ~96% (stacked-DR), where naive intervals severely under-cover.

Avaliação de Julgamento Causal: Métricas Substitutas Calibradas para Sistemas de LLM

Causal Judge Evaluation: Calibrated Surrogate Metrics for LLM Systems

Resumo

Support