Активные обучающиеся как эффективные реранкеры PRP

Аннотация

Промптинг парного ранжирования (ППР) извлекает из большой языковой модели (БЯМ) парные предпочтения, которые затем агрегируются в ранжирование, обычно с помощью классических алгоритмов сортировки. Однако такие суждения зашумлены, чувствительны к порядку и иногда нетранзитивны, поэтому допущения о сортировке не соответствуют данной задаче. Поскольку сортировка направлена на восстановление полной перестановки, её усечение для соблюдения бюджета вызовов не даёт надёжного top-K. В связи с этим мы переосмысливаем переранжирование с помощью ППР как активное обучение на основе зашумлённых парных сравнений и показываем, что активные ранжировщики могут служить прямой заменой, улучшая NDCG@10 на один вызов в режиме ограниченных вызовов. Наша помехоустойчивая структура также вводит оракул со случайным направлением, который использует один вызов БЯМ на пару. Данный подход преобразует систематическое позиционное смещение в шум с нулевым средним, что позволяет получать несмещённое агрегированное ранжирование без затрат на двунаправленные вызовы.

English

Pairwise Ranking Prompting (PRP) elicits pairwise preference judgments from an LLM, which are then aggregated into a ranking, usually via classical sorting algorithms. However, judgments are noisy, order-sensitive, and sometimes intransitive, so sorting assumptions do not match the setting. Because sorting aims to recover a full permutation, truncating it to meet a call budget does not produce a dependable top-K. We thus reframe PRP reranking as active learning from noisy pairwise comparisons and show that active rankers are drop-in replacements that improve NDCG@10 per call in the call-constrained regime. Our noise-robust framework also introduces a randomized-direction oracle that uses a single LLM call per pair. This approach converts systematic position bias into zero-mean noise, enabling unbiased aggregate ranking without the cost of bidirectional calls.