ChatPaper.aiChatPaper

Оценка причинно-следственных связей: Калиброванные суррогатные метрики для систем больших языковых моделей

Causal Judge Evaluation: Calibrated Surrogate Metrics for LLM Systems

December 11, 2025
Авторы: Eddie Landesberg
cs.AI

Аннотация

Оценка LLM-как-судьи стала де-факто стандартом для масштабирования оценки моделей, однако этот подход статистически некорректен: неколиброванные оценки могут инвертировать предпочтения, наивные доверительные интервалы для неколиброванных оценок обеспечивают почти нулевое покрытие, а оценки с важностью весов коллапсируют при ограниченном перекрытии, несмотря на высокий эффективный размер выборки (ЭРВ). Мы представляем Causal Judge Evaluation (CJE) — фреймворк, который устраняет все три недостатка. На n=4,961 промпте из Chatbot Arena (после фильтрации из 5k) CJE достигает 99% точности попарного ранжирования при полном размере выборки (94% в среднем по конфигурациям), соответствуя качеству оракула, при 14-кратном снижении стоимости (для ранжирования 5 политик) за счет колибровки 16-кратно более дешевого судьи всего на 5% меток оракула (~250 меток). CJE объединяет три компонента: (i) AutoCal-R, колибровку вознаграждений через сохраняющую среднее изотонную регрессию; (ii) SIMCal-W, стабилизацию весов через стекинг S-монотонных кандидатов; и (iii) Oracle-Uncertainty Aware (OUA) вывод, который распространяет неопределенность колибровки в доверительные интервалы. Мы формализуем диагностику Coverage-Limited Efficiency (CLE), которая объясняет, почему оценки в стиле IPS терпят неудачу даже при ЭРВ >90%: логгер редко посещает регионы, где концентрируются целевые политики. Ключевые выводы: SNIPS инвертирует ранжирование даже при колибровке вознаграждений (38% попарно, отрицательный тау Кендалла) из-за нестабильности весов; колиброванный IPS остается почти случайным (47%) несмотря на стабилизацию весов, что согласуется с CLE; OUA улучшает покрытие с почти 0% до ~86% (Direct) и ~96% (stacked-DR), тогда как наивные интервалы имеют сильное недопокрытие.
English
LLM-as-judge evaluation has become the de facto standard for scaling model assessment, but the practice is statistically unsound: uncalibrated scores can invert preferences, naive confidence intervals on uncalibrated scores achieve near-0% coverage, and importance-weighted estimators collapse under limited overlap despite high effective sample size (ESS). We introduce Causal Judge Evaluation (CJE), a framework that fixes all three failures. On n=4,961 Chatbot Arena prompts (after filtering from 5k), CJE achieves 99% pairwise ranking accuracy at full sample size (94% averaged across configurations), matching oracle quality, at 14x lower cost (for ranking 5 policies) by calibrating a 16x cheaper judge on just 5% oracle labels (~250 labels). CJE combines three components: (i) AutoCal-R, reward calibration via mean-preserving isotonic regression; (ii) SIMCal-W, weight stabilization via stacking of S-monotone candidates; and (iii) Oracle-Uncertainty Aware (OUA) inference that propagates calibration uncertainty into confidence intervals. We formalize the Coverage-Limited Efficiency (CLE) diagnostic, which explains why IPS-style estimators fail even when ESS exceeds 90%: the logger rarely visits regions where target policies concentrate. Key findings: SNIPS inverts rankings even with reward calibration (38% pairwise, negative Kendall's tau) due to weight instability; calibrated IPS remains near-random (47%) despite weight stabilization, consistent with CLE; OUA improves coverage from near-0% to ~86% (Direct) and ~96% (stacked-DR), where naive intervals severely under-cover.
PDF42December 17, 2025