ChatPaper.aiChatPaper

因果判断評価:LLMシステムのための較正済み代理指標

Causal Judge Evaluation: Calibrated Surrogate Metrics for LLM Systems

December 11, 2025
著者: Eddie Landesberg
cs.AI

要旨

LLM-as-judge評価は、モデル評価のスケーリングにおけるデファクトスタンダードとなっているが、この手法は統計的に不健全である。較正されていないスコアは選好を逆転させ得る。較正されていないスコアに対する素朴な信頼区間は実質0%の被覆率となり、重要度重み付き推定量は高い有効サンプルサイズ(ESS)にも関わらず、限定的な重複の下では崩壊する。我々は、これら3つの問題を全て解決する枠組みであるCausal Judge Evaluation(CJE)を提案する。n=4,961件のChatbot Arenaプロンプト(5k件からフィルタリング後)を用いた評価において、CJEは全サンプルサイズで99%のペアワイズランキング精度(設定全体の平均94%)を達成し、オラクル品質に匹敵する。これは、16倍安価なジャッジを僅か5%のオラクルラベル(約250ラベル)で較正することにより、5つのポリシーをランキングするコストを14分の1に削減して実現した。CJEは以下の3つのコンポーネントを組み合わせる:(i) 平均保存等張回帰による報酬較正AutoCal-R、(ii) S-単調候補のスタッキングによる重み安定化SIMCal-W、(iii) 較正の不確実性を信頼区間に伝播させるOracle-Uncertainty Aware(OUA)推論。我々は、被覆率制限効率性(CLE)診断を定式化し、ESSが90%を超えてもIPS型推定量が失敗する理由(ターゲットポリシーが集中する領域をロガーがほとんど訪れない)を説明する。主な知見:SNIPSは重みの不安定性により報酬較正後もランキングを逆転(ペアワイズ38%、負のケンドールのτ)。較正済みIPSは重み安定化後もほぼランダム(47%)であり、CLEと一致。OUAは被覆率を実質0%から約86%(Direct)、約96%(stacked-DR)に改善し、素朴な区間の深刻な被覆不足を解決する。
English
LLM-as-judge evaluation has become the de facto standard for scaling model assessment, but the practice is statistically unsound: uncalibrated scores can invert preferences, naive confidence intervals on uncalibrated scores achieve near-0% coverage, and importance-weighted estimators collapse under limited overlap despite high effective sample size (ESS). We introduce Causal Judge Evaluation (CJE), a framework that fixes all three failures. On n=4,961 Chatbot Arena prompts (after filtering from 5k), CJE achieves 99% pairwise ranking accuracy at full sample size (94% averaged across configurations), matching oracle quality, at 14x lower cost (for ranking 5 policies) by calibrating a 16x cheaper judge on just 5% oracle labels (~250 labels). CJE combines three components: (i) AutoCal-R, reward calibration via mean-preserving isotonic regression; (ii) SIMCal-W, weight stabilization via stacking of S-monotone candidates; and (iii) Oracle-Uncertainty Aware (OUA) inference that propagates calibration uncertainty into confidence intervals. We formalize the Coverage-Limited Efficiency (CLE) diagnostic, which explains why IPS-style estimators fail even when ESS exceeds 90%: the logger rarely visits regions where target policies concentrate. Key findings: SNIPS inverts rankings even with reward calibration (38% pairwise, negative Kendall's tau) due to weight instability; calibrated IPS remains near-random (47%) despite weight stabilization, consistent with CLE; OUA improves coverage from near-0% to ~86% (Direct) and ~96% (stacked-DR), where naive intervals severely under-cover.
PDF42December 17, 2025