ChatPaper.aiChatPaper

Активные обучающиеся как эффективные реранкеры PRP

Active Learners as Efficient PRP Rerankers

May 15, 2026
Авторы: Jeremías Figueiredo Paschmann, Juan Kaplan, Francisco Nattero, Santiago Barron, Juan Wisznia, Luciano del Corro
cs.AI

Аннотация

Промптинг парного ранжирования (ППР) извлекает из большой языковой модели (БЯМ) парные предпочтения, которые затем агрегируются в ранжирование, обычно с помощью классических алгоритмов сортировки. Однако такие суждения зашумлены, чувствительны к порядку и иногда нетранзитивны, поэтому допущения о сортировке не соответствуют данной задаче. Поскольку сортировка направлена на восстановление полной перестановки, её усечение для соблюдения бюджета вызовов не даёт надёжного top-K. В связи с этим мы переосмысливаем переранжирование с помощью ППР как активное обучение на основе зашумлённых парных сравнений и показываем, что активные ранжировщики могут служить прямой заменой, улучшая NDCG@10 на один вызов в режиме ограниченных вызовов. Наша помехоустойчивая структура также вводит оракул со случайным направлением, который использует один вызов БЯМ на пару. Данный подход преобразует систематическое позиционное смещение в шум с нулевым средним, что позволяет получать несмещённое агрегированное ранжирование без затрат на двунаправленные вызовы.
English
Pairwise Ranking Prompting (PRP) elicits pairwise preference judgments from an LLM, which are then aggregated into a ranking, usually via classical sorting algorithms. However, judgments are noisy, order-sensitive, and sometimes intransitive, so sorting assumptions do not match the setting. Because sorting aims to recover a full permutation, truncating it to meet a call budget does not produce a dependable top-K. We thus reframe PRP reranking as active learning from noisy pairwise comparisons and show that active rankers are drop-in replacements that improve NDCG@10 per call in the call-constrained regime. Our noise-robust framework also introduces a randomized-direction oracle that uses a single LLM call per pair. This approach converts systematic position bias into zero-mean noise, enabling unbiased aggregate ranking without the cost of bidirectional calls.