ChatPaper.aiChatPaper

Évaluation statistiquement fiable des classements basée sur les LLM via l'inférence alimentée par la prédiction

Statistically Reliable LLM-Based Ranking Evaluation via Prediction-Powered Inference

June 3, 2026
Auteurs: Abhishek Divekar
cs.AI

Résumé

Avec PRECISE, nous avons étendu l’inférence assistée par prédiction pour produire des estimations corrigées du biais des métriques d’évaluation de classement en combinant un petit ensemble annoté par des humains avec un vaste ensemble évalué par un LLM. PPI est prouvé sans biais, quel que soit le profil d’erreur du juge LLM. Nous le rendons applicable à des métriques hiérarchiques comme Precision@K, où les annotations portent sur chaque document mais la métrique porte sur chaque requête, en réduisant le calcul de l’espace de sortie de O(2^|C|) à O(2^K). Sur le benchmark ESCI, l’ajout de 30 annotations humaines aux jugements de Claude 3 Sonnet réduit l’erreur type des estimations de Precision@4 de 4,45 à 3,50 (soit une réduction relative de 21 %). Dans un système de production, notre cadre a correctement identifié la meilleure des trois variantes du système à partir de 100 étiquettes humaines et de 2 heures d’annotation par des experts du domaine ; les tests A/B ont confirmé ce classement avec +407 points de base dans les ventes quotidiennes.
English
With PRECISE, we extended Prediction-Powered Inference to produce bias-corrected estimates of ranking evaluation metrics by combining a small human-labeled set with a large LLM-judged set. PPI is provably unbiased regardless of the LLM judge's error profile. We make it applicable to hierarchical metrics like Precision@K, where annotations are per-document but the metric is per-query, by reducing the output-space computation from O(2^|C|) to O(2^K). On the ESCI benchmark, augmenting 30 human annotations with Claude 3 Sonnet judgments reduces the standard error of Precision@4 estimates from 4.45 to 3.50 (a 21% relative reduction). In a production system, our framework correctly identified the best of three system variants from 100 human labels and 2 hours of domain-expert annotation; A/B testing confirmed this ranking with +407 bps in daily sales.