Aprendices Activos como Reordenadores Eficientes de PRP

Resumen

El *Pairwise Ranking Prompting* (PRP) obtiene juicios de preferencia por pares de un LLM, que luego se agregan en un ranking, generalmente mediante algoritmos de ordenamiento clásicos. Sin embargo, los juicios son ruidosos, sensibles al orden y, en ocasiones, intransitivos, por lo que los supuestos del ordenamiento no se ajustan al contexto. Dado que el ordenamiento busca recuperar una permutación completa, truncarlo para cumplir con un presupuesto de consultas no produce un top-K confiable. Por ello, replanteamos el reranking mediante PRP como aprendizaje activo a partir de comparaciones ruidosas por pares y mostramos que los rankers activos son reemplazos directos que mejoran el NDCG@10 por consulta en el régimen de consultas limitadas. Nuestro marco robusto al ruido también introduce un oráculo de dirección aleatorizada que utiliza una sola llamada al LLM por par. Este enfoque convierte el sesgo sistemático de posición en ruido de media cero, permitiendo un ranking agregado insesgado sin el costo de las llamadas bidireccionales.

English

Pairwise Ranking Prompting (PRP) elicits pairwise preference judgments from an LLM, which are then aggregated into a ranking, usually via classical sorting algorithms. However, judgments are noisy, order-sensitive, and sometimes intransitive, so sorting assumptions do not match the setting. Because sorting aims to recover a full permutation, truncating it to meet a call budget does not produce a dependable top-K. We thus reframe PRP reranking as active learning from noisy pairwise comparisons and show that active rankers are drop-in replacements that improve NDCG@10 per call in the call-constrained regime. Our noise-robust framework also introduces a randomized-direction oracle that uses a single LLM call per pair. This approach converts systematic position bias into zero-mean noise, enabling unbiased aggregate ranking without the cost of bidirectional calls.