Actieve leeralgoritmen als efficiënte PRP-herrangschikkers

Samenvatting

Pairwise Ranking Prompting (PRP) lokt paarsgewijze voorkeursbeoordelingen uit bij een LLM, die vervolgens worden samengevoegd tot een ranking, meestal via klassieke sorteeralgoritmen. De beoordelingen zijn echter ruisachtig, ordegevoelig en soms intransitief, waardoor de aannames van sorteren niet aansluiten bij de setting. Omdat sorteren gericht is op het herstellen van een volledige permutatie, levert het afkappen ervan om aan een call-budget te voldoen geen betrouwbare top-K op. We herformuleren daarom PRP-herranking als actief leren van ruisachtige paarsgewijze vergelijkingen en tonen aan dat actieve rankers drop-in vervangers zijn die de NDCG@10 per call verbeteren in het call-beperkte regime. Ons ruisbestendige raamwerk introduceert ook een oracle met gerandomiseerde richting die één LLM-call per paar gebruikt. Deze benadering zet systematische positiebias om in ruis met een gemiddelde van nul, wat een zuivere geaggregeerde ranking mogelijk maakt zonder de kosten van bidirectionele calls.

English

Pairwise Ranking Prompting (PRP) elicits pairwise preference judgments from an LLM, which are then aggregated into a ranking, usually via classical sorting algorithms. However, judgments are noisy, order-sensitive, and sometimes intransitive, so sorting assumptions do not match the setting. Because sorting aims to recover a full permutation, truncating it to meet a call budget does not produce a dependable top-K. We thus reframe PRP reranking as active learning from noisy pairwise comparisons and show that active rankers are drop-in replacements that improve NDCG@10 per call in the call-constrained regime. Our noise-robust framework also introduces a randomized-direction oracle that uses a single LLM call per pair. This approach converts systematic position bias into zero-mean noise, enabling unbiased aggregate ranking without the cost of bidirectional calls.