Aktive Lerner als effiziente PRP-Reranker

Zusammenfassung

Pairwise Ranking Prompting (PRP) ruft paarweise Präferenzurteile von einem LLM ab, die dann zu einem Ranking zusammengeführt werden, üblicherweise mittels klassischer Sortieralgorithmen. Allerdings sind die Urteile verrauscht, reihenfolgeempfindlich und manchmal intransitiv, sodass die Annahmen des Sortierens nicht mit dem Szenario übereinstimmen. Da das Sortieren darauf abzielt, eine vollständige Permutation wiederherzustellen, führt das Abschneiden, um ein Aufrufbudget einzuhalten, nicht zu einem zuverlässigen Top-K. Wir formulieren daher das PRP-Reranking als aktives Lernen aus verrauschten paarweisen Vergleichen um und zeigen, dass aktive Ranker als Drop-in-Ersatz dienen, die den NDCG@10 pro Aufruf im aufrufbeschränkten Bereich verbessern. Unser rauschrobuster Rahmen führt außerdem einen Oracle mit randomisierter Richtung ein, der einen einzigen LLM-Aufruf pro Paar verwendet. Dieser Ansatz wandelt systematischen Positionsbias in mittelwertfreies Rauschen um, wodurch ein unverzerrtes aggregiertes Ranking ohne die Kosten bidirektionaler Aufrufe ermöglicht wird.

English

Pairwise Ranking Prompting (PRP) elicits pairwise preference judgments from an LLM, which are then aggregated into a ranking, usually via classical sorting algorithms. However, judgments are noisy, order-sensitive, and sometimes intransitive, so sorting assumptions do not match the setting. Because sorting aims to recover a full permutation, truncating it to meet a call budget does not produce a dependable top-K. We thus reframe PRP reranking as active learning from noisy pairwise comparisons and show that active rankers are drop-in replacements that improve NDCG@10 per call in the call-constrained regime. Our noise-robust framework also introduces a randomized-direction oracle that uses a single LLM call per pair. This approach converts systematic position bias into zero-mean noise, enabling unbiased aggregate ranking without the cost of bidirectional calls.