GroupRank: Um Paradigma de Reranking por Grupo Orientado por Aprendizagem por Reforço

Resumo

Os Modelos de Linguagem de Grande Porte demonstraram forte potencial como rerranqueadores para melhorar o desempenho geral dos sistemas de RAG. No entanto, os paradigmas de rerranqueamento existentes estão limitados por um dilema teórico e prático central: os métodos Pontuais, embora simples e altamente flexíveis, avaliam documentos de forma independente, tornando-os propensos à "Armadilha da Miopia na Ordenação", negligenciando a importância relativa entre os documentos. Em contraste, os métodos Baseados em Lista podem perceber o contexto global de ordenação, mas sofrem com a inherente "Rigidez da Lista", levando a sérios problemas de escalabilidade e flexibilidade ao lidar com grandes conjuntos de candidatos. Para enfrentar esses desafios, propomos o paradigma de rerranqueamento Baseado em Grupos. Nesta abordagem, a consulta e um grupo de documentos candidatos são alimentados conjuntamente no modelo, que realiza comparações dentro do grupo para atribuir pontuações de relevância individuais a cada documento. Este projeto mantém a flexibilidade dos métodos Pontuais, permitindo ao mesmo tempo a capacidade comparativa dos métodos Baseados em Lista. Adotamos ainda o GRPO para o treino do modelo, equipado com uma função de recompensa heterogénea que integra métricas de ordenação com uma recompensa distribucional destinada a alinhar as distribuições de pontuação entre grupos. Para superar o estrangulamento causado pela escassez de dados rotulados de alta qualidade, propomos ainda um *pipeline* inovador para sintetizar dados de recuperação e ordenação de alta qualidade. Os dados resultantes podem ser utilizados não apenas para treinar o rerranqueador, mas também para treinar o recuperador. Experiências extensivas validam a eficácia da nossa abordagem. Em dois benchmarks de recuperação intensiva em raciocínio, BRIGHT e R2MED.

English

Large Language Models have shown strong potential as rerankers to enhance the overall performance of RAG systems. However, existing reranking paradigms are constrained by a core theoretical and practical dilemma: Pointwise methods, while simple and highly flexible, evaluate documents independently, making them prone to the Ranking Myopia Trap, overlooking the relative importance between documents. In contrast, Listwise methods can perceive the global ranking context, but suffer from inherent List Rigidity, leading to severe scalability and flexibility issues when handling large candidate sets. To address these challenges, we propose Groupwise, a novel reranking paradigm. In this approach, the query and a group of candidate documents are jointly fed into the model, which performs within-group comparisons to assign individual relevance scores to each document. This design retains the flexibility of Pointwise methods while enabling the comparative capability of Listwise methods. We further adopt GRPO for model training, equipped with a heterogeneous reward function that integrates ranking metrics with a distributional reward aimed at aligning score distributions across groups. To overcome the bottleneck caused by the scarcity of high quality labeled data, we further propose an innovative pipeline for synthesizing high quality retrieval and ranking data. The resulting data can be leveraged not only for training the reranker but also for training the retriever. Extensive experiments validate the effectiveness of our approach. On two reasoning intensive retrieval benchmarks, BRIGHT and R2MED.

GroupRank: Um Paradigma de Reranking por Grupo Orientado por Aprendizagem por Reforço

GroupRank: A Groupwise Reranking Paradigm Driven by Reinforcement Learning

Resumo

Support