ChatPaper.aiChatPaper

인과 판단 평가: LLM 시스템을 위한 보정된 대리 지표

Causal Judge Evaluation: Calibrated Surrogate Metrics for LLM Systems

December 11, 2025
저자: Eddie Landesberg
cs.AI

초록

LLM-as-judge 평가는 모델 평가 확장을 위한 사실상의 표준이 되었지만, 이 방법은 통계적으로 결함이 있습니다: 보정되지 않은 점수는 선호도를 역전시킬 수 있고, 보정되지 않은 점수에 대한 단순 신뢰구간은 거의 0%에 가까운 커버리지를 달성하며, 중요도 가중 추정기는 높은 유효 표본 크기(ESS)에도 불구하고 제한된 중첩 하에서 붕괴됩니다. 우리는 이 세 가지 결함을 모두 해결하는 프레임워크인 Causal Judge Evaluation(CJE)을 소개합니다. n=4,961개의 Chatbot Arena 프롬프트(5,000개에서 필터링 후)에서 CJE는 전체 표본 크기에서 99%의 쌍별 순위 정확도(구성 전체 평균 94%)를 달성하여 오라클 품질과 일치하며, 5%의 오라클 레이블(약 250개 레이블)만으로 16배 더 저렴한 평가자를 보정함으로써 비용을 14분의 1로 절감합니다(5개 정책 순위 매김 시). CJE는 세 가지 구성 요소를 결합합니다: (i) 평균 보존 등장 회귀를 통한 보상 보정(AutoCal-R); (ii) S-단조 후보 스태킹을 통한 가중치 안정화(SIMCal-W); (iii) 보정 불확실성을 신뢰구간에 전파하는 Oracle-Uncertainty Aware(OUA) 추론. 우리는 Coverage-Limited Efficiency(CLE) 진단을 공식화하는데, 이는 ESS가 90%를 초과할 때도 IPS 스타일 추정기가 실패하는 이유를 설명합니다: 로거가 대상 정책이 집중되는 영역을 거의 방문하지 않기 때문입니다. 주요 결과: SNIPS는 가중치 불안정성으로 인해 보상 보정 후에도 순위를 역전시킵니다(38% 쌍별, 음의 켄달 타우). 가중치 안정화에도 불구하고 보정된 IPS는 여전히 거의 무작위 수준입니다(47%), 이는 CLE와 일관됩니다. OUA는 커버리지를 거의 0%에서 약 86%(Direct) 및 약 96%(stacked-DR)로 개선하는 반면, 단순 구간은 심각하게 과소 커버됩니다.
English
LLM-as-judge evaluation has become the de facto standard for scaling model assessment, but the practice is statistically unsound: uncalibrated scores can invert preferences, naive confidence intervals on uncalibrated scores achieve near-0% coverage, and importance-weighted estimators collapse under limited overlap despite high effective sample size (ESS). We introduce Causal Judge Evaluation (CJE), a framework that fixes all three failures. On n=4,961 Chatbot Arena prompts (after filtering from 5k), CJE achieves 99% pairwise ranking accuracy at full sample size (94% averaged across configurations), matching oracle quality, at 14x lower cost (for ranking 5 policies) by calibrating a 16x cheaper judge on just 5% oracle labels (~250 labels). CJE combines three components: (i) AutoCal-R, reward calibration via mean-preserving isotonic regression; (ii) SIMCal-W, weight stabilization via stacking of S-monotone candidates; and (iii) Oracle-Uncertainty Aware (OUA) inference that propagates calibration uncertainty into confidence intervals. We formalize the Coverage-Limited Efficiency (CLE) diagnostic, which explains why IPS-style estimators fail even when ESS exceeds 90%: the logger rarely visits regions where target policies concentrate. Key findings: SNIPS inverts rankings even with reward calibration (38% pairwise, negative Kendall's tau) due to weight instability; calibrated IPS remains near-random (47%) despite weight stabilization, consistent with CLE; OUA improves coverage from near-0% to ~86% (Direct) and ~96% (stacked-DR), where naive intervals severely under-cover.
PDF42December 17, 2025