ChatPaper.aiChatPaper

GroupRank: Un Paradigma de Reordenación por Grupos Impulsado por Aprendizaje por Refuerzo

GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning

November 10, 2025
Autores: Duolin Sun, Meixiu Long, Dan Yang, Yihan Jiao, Zhehao Tan, Jie Feng, Junjie Wang, Yue Shen, Peng Wei, Jian Wang, Jinjie Gu
cs.AI

Resumen

Los Modelos de Lenguaje Grandes han demostrado un fuerte potencial como rerankers para mejorar el rendimiento general de los sistemas RAG. Sin embargo, los paradigmas de reranking existentes están limitados por un dilema teórico y práctico fundamental: los métodos Punto a Punto, aunque simples y muy flexibles, evalúan los documentos de forma independiente, lo que los hace propensos a la Trampa de la Miopía del Ranking, pasando por alto la importancia relativa entre documentos. Por el contrario, los métodos Basados en Listas pueden percibir el contexto global del ranking, pero sufren de una inherente Rigidez de Lista, lo que genera graves problemas de escalabilidad y flexibilidad al manejar grandes conjuntos de candidatos. Para abordar estos desafíos, proponemos Groupwise, un nuevo paradigma de reranking. En este enfoque, la consulta y un grupo de documentos candidatos se introducen conjuntamente en el modelo, que realiza comparaciones intragrupo para asignar puntuaciones de relevancia individuales a cada documento. Este diseño conserva la flexibilidad de los métodos Punto a Punto a la vez que permite la capacidad comparativa de los métodos Basados en Listas. Además, adoptamos GRPO para el entrenamiento del modelo, equipado con una función de recompensa heterogénea que integra métricas de ranking con una recompensa distribucional destinada a alinear las distribuciones de puntuación entre grupos. Para superar el cuello de botella causado por la escasez de datos etiquetados de alta calidad, proponemos además un proceso innovador para sintetizar datos de recuperación y ranking de alta calidad. Los datos resultantes pueden aprovecharse no solo para entrenar el reranker, sino también para entrenar el recuperador. Experimentos exhaustivos validan la efectividad de nuestro enfoque. En dos benchmarks de recuperación intensiva en razonamiento, BRIGHT y R2MED.
English
Large Language Models have shown strong potential as rerankers to enhance the overall performance of RAG systems. However, existing reranking paradigms are constrained by a core theoretical and practical dilemma: Pointwise methods, while simple and highly flexible, evaluate documents independently, making them prone to the Ranking Myopia Trap, overlooking the relative importance between documents. In contrast, Listwise methods can perceive the global ranking context, but suffer from inherent List Rigidity, leading to severe scalability and flexibility issues when handling large candidate sets. To address these challenges, we propose Groupwise, a novel reranking paradigm. In this approach, the query and a group of candidate documents are jointly fed into the model, which performs within-group comparisons to assign individual relevance scores to each document. This design retains the flexibility of Pointwise methods while enabling the comparative capability of Listwise methods. We further adopt GRPO for model training, equipped with a heterogeneous reward function that integrates ranking metrics with a distributional reward aimed at aligning score distributions across groups. To overcome the bottleneck caused by the scarcity of high quality labeled data, we further propose an innovative pipeline for synthesizing high quality retrieval and ranking data. The resulting data can be leveraged not only for training the reranker but also for training the retriever. Extensive experiments validate the effectiveness of our approach. On two reasoning intensive retrieval benchmarks, BRIGHT and R2MED.
PDF547December 1, 2025