Aprendizes Ativos como Reordenadores PRP Eficientes

Resumo

O Prompt de Classificação Pareada (PRP) elicita julgamentos de preferência pareada de um LLM, que são então agregados em uma classificação, geralmente por meio de algoritmos clássicos de ordenação. No entanto, os julgamentos são ruidosos, sensíveis à ordem e, às vezes, intransitivos, de modo que as premissas de ordenação não correspondem ao contexto. Como a ordenação visa recuperar uma permutação completa, truncá-la para atender a um orçamento de chamadas não produz um top-K confiável. Assim, reformulamos o reranking por PRP como aprendizado ativo a partir de comparações pareadas ruidosas e mostramos que ranqueadores ativos são substitutos diretos que melhoram o NDCG@10 por chamada no regime de chamadas restrito. Nossa estrutura robusta a ruídos também introduz um oráculo de direção aleatória que usa uma única chamada de LLM por par. Essa abordagem converte o viés sistemático de posição em ruído de média zero, permitindo uma classificação agregada não enviesada sem o custo de chamadas bidirecionais.

English

Pairwise Ranking Prompting (PRP) elicits pairwise preference judgments from an LLM, which are then aggregated into a ranking, usually via classical sorting algorithms. However, judgments are noisy, order-sensitive, and sometimes intransitive, so sorting assumptions do not match the setting. Because sorting aims to recover a full permutation, truncating it to meet a call budget does not produce a dependable top-K. We thus reframe PRP reranking as active learning from noisy pairwise comparisons and show that active rankers are drop-in replacements that improve NDCG@10 per call in the call-constrained regime. Our noise-robust framework also introduces a randomized-direction oracle that uses a single LLM call per pair. This approach converts systematic position bias into zero-mean noise, enabling unbiased aggregate ranking without the cost of bidirectional calls.