Evaluación de Ranking basada en LLM Estadísticamente Fiable mediante Inferencia Potenciada por Predicción

Resumen

Con PRECISE, extendimos la Inferencia Potenciada por Predicciones para producir estimaciones corregidas por sesgo de métricas de evaluación de ranking, combinando un pequeño conjunto etiquetado por humanos con un gran conjunto evaluado por LLM. PPI es demostrablemente insesgado independientemente del perfil de error del evaluador LLM. Lo hacemos aplicable a métricas jerárquicas como Precisión@K, donde las anotaciones son por documento pero la métrica es por consulta, reduciendo el cálculo del espacio de salida de O(2^|C|) a O(2^K). En el benchmark ESCI, aumentar 30 anotaciones humanas con juicios de Claude 3 Sonnet reduce el error estándar de las estimaciones de Precisión@4 de 4.45 a 3.50 (una reducción relativa del 21%). En un sistema de producción, nuestro marco identificó correctamente la mejor de tres variantes del sistema a partir de 100 etiquetas humanas y 2 horas de anotación de expertos en el dominio; las pruebas A/B confirmaron esta clasificación con +407 puntos base en ventas diarias.

English

With PRECISE, we extended Prediction-Powered Inference to produce bias-corrected estimates of ranking evaluation metrics by combining a small human-labeled set with a large LLM-judged set. PPI is provably unbiased regardless of the LLM judge's error profile. We make it applicable to hierarchical metrics like Precision@K, where annotations are per-document but the metric is per-query, by reducing the output-space computation from O(2^|C|) to O(2^K). On the ESCI benchmark, augmenting 30 human annotations with Claude 3 Sonnet judgments reduces the standard error of Precision@4 estimates from 4.45 to 3.50 (a 21% relative reduction). In a production system, our framework correctly identified the best of three system variants from 100 human labels and 2 hours of domain-expert annotation; A/B testing confirmed this ranking with +407 bps in daily sales.