Avaliação Estatisticamente Confiável de Ranqueamento Baseado em LLM via Inferência Potenciada por Predição

Resumo

Com o PRECISE, estendemos a Inferência Potencializada por Predição (Prediction-Powered Inference) para produzir estimativas corrigidas de viés de métricas de avaliação de ranqueamento, combinando um pequeno conjunto rotulado por humanos com um grande conjunto julgado por LLM. O PPI é comprovadamente não viesado, independentemente do perfil de erro do julgador LLM. Tornamo-lo aplicável a métricas hierárquicas como Precisão@K, onde as anotações são por documento, mas a métrica é por consulta, reduzindo o cálculo do espaço de saída de O(2^|C|) para O(2^K). No benchmark ESCI, a ampliação de 30 anotações humanas com julgamentos do Claude 3 Sonnet reduz o erro padrão das estimativas de Precisão@4 de 4,45 para 3,50 (uma redução relativa de 21%). Em um sistema de produção, nossa estrutura identificou corretamente a melhor de três variantes do sistema a partir de 100 rótulos humanos e 2 horas de anotação de especialistas no domínio; o teste A/B confirmou esse ranqueamento com +407 pontos-base nas vendas diárias.

English

With PRECISE, we extended Prediction-Powered Inference to produce bias-corrected estimates of ranking evaluation metrics by combining a small human-labeled set with a large LLM-judged set. PPI is provably unbiased regardless of the LLM judge's error profile. We make it applicable to hierarchical metrics like Precision@K, where annotations are per-document but the metric is per-query, by reducing the output-space computation from O(2^|C|) to O(2^K). On the ESCI benchmark, augmenting 30 human annotations with Claude 3 Sonnet judgments reduces the standard error of Precision@4 estimates from 4.45 to 3.50 (a 21% relative reduction). In a production system, our framework correctly identified the best of three system variants from 100 human labels and 2 hours of domain-expert annotation; A/B testing confirmed this ranking with +407 bps in daily sales.