DynamicRAG: Utilizando Saídas de Modelos de Linguagem como Feedback para Reranking Dinâmico em Geração Aumentada por Recuperação

Resumo

Sistemas de geração aumentada por recuperação (RAG, do inglês Retrieval-Augmented Generation) combinam modelos de linguagem de grande escala (LLMs) com recuperação de conhecimento externo, tornando-os altamente eficazes para tarefas que demandam conhecimento intensivo. Um componente crucial, mas frequentemente pouco explorado desses sistemas, é o reranker, que refina documentos recuperados para melhorar a qualidade e a explicabilidade da geração. O desafio de selecionar o número ideal de documentos (k) permanece sem solução: poucos documentos podem omitir informações críticas, enquanto muitos introduzem ruído e ineficiências. Embora estudos recentes tenham explorado rerankers baseados em LLMs, eles utilizam principalmente o conhecimento interno do modelo e ignoram os ricos sinais de supervisão que os LLMs podem fornecer, como o uso da qualidade da resposta como feedback para otimizar decisões de reranking. Neste artigo, propomos o DynamicRAG, uma nova estrutura RAG em que o reranker ajusta dinamicamente tanto a ordem quanto o número de documentos recuperados com base na consulta. Modelamos o reranker como um agente otimizado por aprendizado por reforço (RL, do inglês Reinforcement Learning), utilizando recompensas derivadas da qualidade da saída do LLM. Em sete conjuntos de dados que demandam conhecimento intensivo, o DynamicRAG demonstra desempenho superior, alcançando resultados de ponta. O modelo, os dados e o código estão disponíveis em https://github.com/GasolSun36/DynamicRAG.

English

Retrieval-augmented generation (RAG) systems combine large language models (LLMs) with external knowledge retrieval, making them highly effective for knowledge-intensive tasks. A crucial but often under-explored component of these systems is the reranker, which refines retrieved documents to enhance generation quality and explainability. The challenge of selecting the optimal number of documents (k) remains unsolved: too few may omit critical information, while too many introduce noise and inefficiencies. Although recent studies have explored LLM-based rerankers, they primarily leverage internal model knowledge and overlook the rich supervisory signals that LLMs can provide, such as using response quality as feedback for optimizing reranking decisions. In this paper, we propose DynamicRAG, a novel RAG framework where the reranker dynamically adjusts both the order and number of retrieved documents based on the query. We model the reranker as an agent optimized through reinforcement learning (RL), using rewards derived from LLM output quality. Across seven knowledge-intensive datasets, DynamicRAG demonstrates superior performance, achieving state-of-the-art results. The model, data and code are available at https://github.com/GasolSun36/DynamicRAG

DynamicRAG: Utilizando Saídas de Modelos de Linguagem como Feedback para Reranking Dinâmico em Geração Aumentada por Recuperação

DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation

Resumo

Support