Les apprenants actifs comme rerankers PRP efficaces

Résumé

Le Pairwise Ranking Prompting (PRP) sollicite des jugements de préférence par paires de la part d'un LLM, qui sont ensuite agrégés en un classement, généralement via des algorithmes de tri classiques. Cependant, ces jugements sont bruités, sensibles à l'ordre et parfois intransitifs, de sorte que les hypothèses de tri ne correspondent pas au contexte. Étant donné que le tri vise à reconstruire une permutation complète, le tronquer pour respecter un budget d'appels ne produit pas un top-K fiable. Nous reformulons donc le reclassement par PRP comme un apprentissage actif à partir de comparaisons par paires bruitées et montrons que les classeurs actifs sont des remplacements directs qui améliorent le NDCG@10 par appel dans le régime contraint en appels. Notre cadre robuste au bruit introduit également un oracle à direction aléatoire qui utilise un seul appel LLM par paire. Cette approche convertit le biais de position systématique en bruit à moyenne nulle, permettant un classement agrégé non biaisé sans le coût des appels bidirectionnels.

English

Pairwise Ranking Prompting (PRP) elicits pairwise preference judgments from an LLM, which are then aggregated into a ranking, usually via classical sorting algorithms. However, judgments are noisy, order-sensitive, and sometimes intransitive, so sorting assumptions do not match the setting. Because sorting aims to recover a full permutation, truncating it to meet a call budget does not produce a dependable top-K. We thus reframe PRP reranking as active learning from noisy pairwise comparisons and show that active rankers are drop-in replacements that improve NDCG@10 per call in the call-constrained regime. Our noise-robust framework also introduces a randomized-direction oracle that uses a single LLM call per pair. This approach converts systematic position bias into zero-mean noise, enabling unbiased aggregate ranking without the cost of bidirectional calls.