Statistisch zuverlässige LLM-basierte Ranking-Evaluierung mittels vorhersagegestützter Inferenz
Statistically Reliable LLM-Based Ranking Evaluation via Prediction-Powered Inference
June 3, 2026
Autoren: Abhishek Divekar
cs.AI
Zusammenfassung
Mit PRECISE haben wir die vorhersagegestützte Inferenz (Prediction-Powered Inference) erweitert, um verzerrungskorrigierte Schätzungen von Bewertungsmetriken für Rangfolgen zu erzeugen, indem ein kleiner, manuell annotierter Satz mit einem großen, von LLM bewerteten Satz kombiniert wird. PPI ist unabhängig vom Fehlerprofil des LLM-Bewerters nachweislich unverzerrt. Wir machen es auf hierarchische Metriken wie Precision@K anwendbar, bei denen die Annotationen pro Dokument, die Metrik jedoch pro Suchanfrage erfolgt, indem die Berechnung des Ausgaberaums von O(2^|C|) auf O(2^K) reduziert wird. Im ESCI-Benchmark reduziert die Ergänzung von 30 menschlichen Annotationen um Bewertungen von Claude 3 Sonnet den Standardfehler von Precision@4-Schätzungen von 4,45 auf 3,50 (eine relative Reduktion von 21 %). In einem Produktionssystem identifizierte unser Framework aus 100 menschlichen Labels und 2 Stunden domänenexpertischer Annotation korrekt die beste von drei Systemvarianten; ein A/B-Test bestätigte diese Rangfolge mit einem Plus von 407 Basispunkten bei den täglichen Verkäufen.
English
With PRECISE, we extended Prediction-Powered Inference to produce bias-corrected estimates of ranking evaluation metrics by combining a small human-labeled set with a large LLM-judged set. PPI is provably unbiased regardless of the LLM judge's error profile. We make it applicable to hierarchical metrics like Precision@K, where annotations are per-document but the metric is per-query, by reducing the output-space computation from O(2^|C|) to O(2^K). On the ESCI benchmark, augmenting 30 human annotations with Claude 3 Sonnet judgments reduces the standard error of Precision@4 estimates from 4.45 to 3.50 (a 21% relative reduction). In a production system, our framework correctly identified the best of three system variants from 100 human labels and 2 hours of domain-expert annotation; A/B testing confirmed this ranking with +407 bps in daily sales.