DynamicRAG: Utilizando Saídas de Modelos de Linguagem como Feedback para Reranking Dinâmico em Geração Aumentada por Recuperação
DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation
May 12, 2025
Autores: Jiashuo Sun, Xianrui Zhong, Sizhe Zhou, Jiawei Han
cs.AI
Resumo
Sistemas de geração aumentada por recuperação (RAG, do inglês Retrieval-Augmented Generation) combinam modelos de linguagem de grande escala (LLMs) com recuperação de conhecimento externo, tornando-os altamente eficazes para tarefas que demandam conhecimento intensivo. Um componente crucial, mas frequentemente pouco explorado desses sistemas, é o reranker, que refina documentos recuperados para melhorar a qualidade e a explicabilidade da geração. O desafio de selecionar o número ideal de documentos (k) permanece sem solução: poucos documentos podem omitir informações críticas, enquanto muitos introduzem ruído e ineficiências. Embora estudos recentes tenham explorado rerankers baseados em LLMs, eles utilizam principalmente o conhecimento interno do modelo e ignoram os ricos sinais de supervisão que os LLMs podem fornecer, como o uso da qualidade da resposta como feedback para otimizar decisões de reranking. Neste artigo, propomos o DynamicRAG, uma nova estrutura RAG em que o reranker ajusta dinamicamente tanto a ordem quanto o número de documentos recuperados com base na consulta. Modelamos o reranker como um agente otimizado por aprendizado por reforço (RL, do inglês Reinforcement Learning), utilizando recompensas derivadas da qualidade da saída do LLM. Em sete conjuntos de dados que demandam conhecimento intensivo, o DynamicRAG demonstra desempenho superior, alcançando resultados de ponta. O modelo, os dados e o código estão disponíveis em https://github.com/GasolSun36/DynamicRAG.
English
Retrieval-augmented generation (RAG) systems combine large language models
(LLMs) with external knowledge retrieval, making them highly effective for
knowledge-intensive tasks. A crucial but often under-explored component of
these systems is the reranker, which refines retrieved documents to enhance
generation quality and explainability. The challenge of selecting the optimal
number of documents (k) remains unsolved: too few may omit critical
information, while too many introduce noise and inefficiencies. Although recent
studies have explored LLM-based rerankers, they primarily leverage internal
model knowledge and overlook the rich supervisory signals that LLMs can
provide, such as using response quality as feedback for optimizing reranking
decisions. In this paper, we propose DynamicRAG, a novel RAG framework where
the reranker dynamically adjusts both the order and number of retrieved
documents based on the query. We model the reranker as an agent optimized
through reinforcement learning (RL), using rewards derived from LLM output
quality. Across seven knowledge-intensive datasets, DynamicRAG demonstrates
superior performance, achieving state-of-the-art results. The model, data and
code are available at https://github.com/GasolSun36/DynamicRAG