GroupRank: Un Paradigma di Riranking di Gruppo Guidato dall'Apprendimento per Rinforzo
GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning
November 10, 2025
Autori: Duolin Sun, Meixiu Long, Dan Yang, Yihan Jiao, Zhehao Tan, Jie Feng, Junjie Wang, Yue Shen, Peng Wei, Jian Wang, Jinjie Gu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni hanno dimostrato un forte potenziale come sistemi di riordinamento per migliorare le prestazioni complessive dei sistemi RAG. Tuttavia, i paradigmi di riordinamento esistenti sono limitati da un dilemma teorico e pratico fondamentale: i metodi Pointwise, sebbene semplici e altamente flessibili, valutano i documenti in modo indipendente, rendendoli inclini alla Trappola della Miopia del Ranking (Ranking Myopia Trap), trascurando l'importanza relativa tra i documenti. Al contrario, i metodi Listwise possono percepire il contesto globale del ranking, ma soffrono di un'interna Rigidità di Lista (List Rigidity), che porta a gravi problemi di scalabilità e flessibilità quando si gestiscono grandi insiemi di candidati. Per affrontare queste sfide, proponiamo Groupwise, un nuovo paradigma di riordinamento. In questo approccio, la query e un gruppo di documenti candidati vengono forniti congiuntamente al modello, che esegue confronti all'interno del gruppo per assegnare punteggi di rilevanza individuali a ciascun documento. Questo design mantiene la flessibilità dei metodi Pointwise consentendo al contempo la capacità comparativa dei metodi Listwise. Adottiamo inoltre il GRPO per l'addestramento del modello, equipaggiato con una funzione di reward eterogenea che integra metriche di ranking con un reward distribuzionale mirato ad allineare le distribuzioni dei punteggi tra i gruppi. Per superare il collo di bottiglia causato dalla scarsità di dati etichettati di alta qualità, proponiamo ulteriormente una pipeline innovativa per sintetizzare dati di retrieval e ranking di alta qualità. I dati risultanti possono essere sfruttati non solo per addestrare il sistema di riordinamento, ma anche per addestrare il sistema di recupero. Esperimenti estensivi convalidano l'efficacia del nostro approccio su due benchmark di retrieval ad alta intensità di ragionamento, BRIGHT e R2MED.
English
Large Language Models have shown strong potential as rerankers to enhance the overall performance of RAG systems. However, existing reranking paradigms are constrained by a core theoretical and practical dilemma: Pointwise methods, while simple and highly flexible, evaluate documents independently, making them prone to the Ranking Myopia Trap, overlooking the relative importance between documents. In contrast, Listwise methods can perceive the global ranking context, but suffer from inherent List Rigidity, leading to severe scalability and flexibility issues when handling large candidate sets. To address these challenges, we propose Groupwise, a novel reranking paradigm. In this approach, the query and a group of candidate documents are jointly fed into the model, which performs within-group comparisons to assign individual relevance scores to each document. This design retains the flexibility of Pointwise methods while enabling the comparative capability of Listwise methods. We further adopt GRPO for model training, equipped with a heterogeneous reward function that integrates ranking metrics with a distributional reward aimed at aligning score distributions across groups. To overcome the bottleneck caused by the scarcity of high quality labeled data, we further propose an innovative pipeline for synthesizing high quality retrieval and ranking data. The resulting data can be leveraged not only for training the reranker but also for training the retriever. Extensive experiments validate the effectiveness of our approach. On two reasoning intensive retrieval benchmarks, BRIGHT and R2MED.