Estrategias en Tiempo de Prueba para RAG Agente Más Eficiente y Precisa

Resumen

Los sistemas de Generación Aumentada por Recuperación (RAG) enfrentan desafíos con preguntas complejas y de múltiples saltos, y se han propuesto marcos agentivos como Search-R1 (Jin et al., 2025), que opera de manera iterativa, para abordar estas complejidades. Sin embargo, estos enfoques pueden introducir ineficiencias, incluyendo la recuperación repetitiva de información ya procesada y dificultades para contextualizar efectivamente los resultados recuperados dentro del prompt de generación actual. Dichos problemas pueden conducir a turnos de recuperación innecesarios, razonamiento subóptimo, respuestas inexactas y un mayor consumo de tokens. En este artículo, investigamos modificaciones en tiempo de prueba a la canalización de Search-R1 para mitigar estas deficiencias identificadas. Específicamente, exploramos la integración de dos componentes y su combinación: un módulo de contextualización para integrar mejor la información relevante de los documentos recuperados en el razonamiento, y un módulo de desduplicación que reemplaza documentos previamente recuperados por los siguientes más relevantes. Evaluamos nuestros enfoques utilizando los conjuntos de datos HotpotQA (Yang et al., 2018) y Natural Questions (Kwiatkowski et al., 2019), reportando la puntuación de coincidencia exacta (EM), una evaluación de corrección de respuestas usando un LLM-como-juez, y el número promedio de turnos. Nuestra variante de mejor rendimiento, que utiliza GPT-4.1-mini para la contextualización, logra un aumento del 5.6% en la puntuación EM y reduce el número de turnos en un 10.5% en comparación con la línea base de Search-R1, demostrando una mayor precisión en las respuestas y una mejora en la eficiencia de la recuperación.

English

Retrieval-Augmented Generation (RAG) systems face challenges with complex, multihop questions, and agentic frameworks such as Search-R1 (Jin et al., 2025), which operates iteratively, have been proposed to address these complexities. However, such approaches can introduce inefficiencies, including repetitive retrieval of previously processed information and challenges in contextualizing retrieved results effectively within the current generation prompt. Such issues can lead to unnecessary retrieval turns, suboptimal reasoning, inaccurate answers, and increased token consumption. In this paper, we investigate test-time modifications to the Search-R1 pipeline to mitigate these identified shortcomings. Specifically, we explore the integration of two components and their combination: a contextualization module to better integrate relevant information from retrieved documents into reasoning, and a de-duplication module that replaces previously retrieved documents with the next most relevant ones. We evaluate our approaches using the HotpotQA (Yang et al., 2018) and the Natural Questions (Kwiatkowski et al., 2019) datasets, reporting the exact match (EM) score, an LLM-as-a-Judge assessment of answer correctness, and the average number of turns. Our best-performing variant, utilizing GPT-4.1-mini for contextualization, achieves a 5.6% increase in EM score and reduces the number of turns by 10.5% compared to the Search-R1 baseline, demonstrating improved answer accuracy and retrieval efficiency.

Estrategias en Tiempo de Prueba para RAG Agente Más Eficiente y Precisa

Test-Time Strategies for More Efficient and Accurate Agentic RAG

Resumen

Support