DynamicRAG: Aprovechando las salidas de modelos de lenguaje extenso como retroalimentación para la reranking dinámico en generación aumentada por recuperación

Resumen

Los sistemas de generación aumentada por recuperación (RAG, por sus siglas en inglés) combinan modelos de lenguaje de gran escala (LLMs) con la recuperación de conocimiento externo, lo que los hace altamente efectivos para tareas intensivas en conocimiento. Un componente crucial pero a menudo poco explorado en estos sistemas es el reranker, que refina los documentos recuperados para mejorar la calidad y la explicabilidad de la generación. El desafío de seleccionar el número óptimo de documentos (k) sigue sin resolverse: demasiados pocos pueden omitir información crítica, mientras que demasiados introducen ruido e ineficiencias. Aunque estudios recientes han explorado rerankers basados en LLMs, estos principalmente aprovechan el conocimiento interno del modelo y pasan por alto las señales de supervisión enriquecedoras que los LLMs pueden proporcionar, como utilizar la calidad de la respuesta como retroalimentación para optimizar las decisiones de reranking. En este artículo, proponemos DynamicRAG, un novedoso marco RAG en el que el reranker ajusta dinámicamente tanto el orden como el número de documentos recuperados en función de la consulta. Modelamos el reranker como un agente optimizado mediante aprendizaje por refuerzo (RL), utilizando recompensas derivadas de la calidad de la salida del LLM. En siete conjuntos de datos intensivos en conocimiento, DynamicRAG demuestra un rendimiento superior, logrando resultados de vanguardia. El modelo, los datos y el código están disponibles en https://github.com/GasolSun36/DynamicRAG.

English

Retrieval-augmented generation (RAG) systems combine large language models (LLMs) with external knowledge retrieval, making them highly effective for knowledge-intensive tasks. A crucial but often under-explored component of these systems is the reranker, which refines retrieved documents to enhance generation quality and explainability. The challenge of selecting the optimal number of documents (k) remains unsolved: too few may omit critical information, while too many introduce noise and inefficiencies. Although recent studies have explored LLM-based rerankers, they primarily leverage internal model knowledge and overlook the rich supervisory signals that LLMs can provide, such as using response quality as feedback for optimizing reranking decisions. In this paper, we propose DynamicRAG, a novel RAG framework where the reranker dynamically adjusts both the order and number of retrieved documents based on the query. We model the reranker as an agent optimized through reinforcement learning (RL), using rewards derived from LLM output quality. Across seven knowledge-intensive datasets, DynamicRAG demonstrates superior performance, achieving state-of-the-art results. The model, data and code are available at https://github.com/GasolSun36/DynamicRAG

DynamicRAG: Aprovechando las salidas de modelos de lenguaje extenso como retroalimentación para la reranking dinámico en generación aumentada por recuperación

DynamicRAG: Leveraging Outputs of Large Language Model as Feedback for Dynamic Reranking in Retrieval-Augmented Generation

Resumen

Support