Estratégias em Tempo de Teste para RAG Agente Mais Eficiente e Preciso

Resumo

Os sistemas de Geração Aumentada por Recuperação (RAG) enfrentam desafios com perguntas complexas e de múltiplos saltos, e estruturas agentes como o Search-R1 (Jin et al., 2025), que opera de forma iterativa, foram propostas para abordar essas complexidades. No entanto, tais abordagens podem introduzir ineficiências, incluindo a recuperação repetitiva de informações previamente processadas e desafios na contextualização eficaz dos resultados recuperados dentro do prompt de geração atual. Tais problemas podem levar a turnos de recuperação desnecessários, raciocínio subótimo, respostas imprecisas e aumento no consumo de *tokens*. Neste artigo, investigamos modificações em tempo de teste no *pipeline* do Search-R1 para mitigar essas deficiências identificadas. Especificamente, exploramos a integração de dois componentes e sua combinação: um módulo de contextualização para integrar melhor informações relevantes de documentos recuperados no raciocínio, e um módulo de deduplicação que substitui documentos previamente recuperados pelos próximos mais relevantes. Avaliamos nossas abordagens usando os conjuntos de dados HotpotQA (Yang et al., 2018) e Natural Questions (Kwiatkowski et al., 2019), relatando a pontuação de correspondência exata (EM), uma avaliação de correção da resposta usando LLM-como-Juiz, e o número médio de turnos. Nossa variante de melhor desempenho, que utiliza o GPT-4.1-mini para contextualização, alcança um aumento de 5,6% na pontuação EM e reduz o número de turnos em 10,5% em comparação com a linha de base do Search-R1, demonstrando uma precisão de resposta e eficiência de recuperação aprimoradas.

English

Retrieval-Augmented Generation (RAG) systems face challenges with complex, multihop questions, and agentic frameworks such as Search-R1 (Jin et al., 2025), which operates iteratively, have been proposed to address these complexities. However, such approaches can introduce inefficiencies, including repetitive retrieval of previously processed information and challenges in contextualizing retrieved results effectively within the current generation prompt. Such issues can lead to unnecessary retrieval turns, suboptimal reasoning, inaccurate answers, and increased token consumption. In this paper, we investigate test-time modifications to the Search-R1 pipeline to mitigate these identified shortcomings. Specifically, we explore the integration of two components and their combination: a contextualization module to better integrate relevant information from retrieved documents into reasoning, and a de-duplication module that replaces previously retrieved documents with the next most relevant ones. We evaluate our approaches using the HotpotQA (Yang et al., 2018) and the Natural Questions (Kwiatkowski et al., 2019) datasets, reporting the exact match (EM) score, an LLM-as-a-Judge assessment of answer correctness, and the average number of turns. Our best-performing variant, utilizing GPT-4.1-mini for contextualization, achieves a 5.6% increase in EM score and reduces the number of turns by 10.5% compared to the Search-R1 baseline, demonstrating improved answer accuracy and retrieval efficiency.

Estratégias em Tempo de Teste para RAG Agente Mais Eficiente e Preciso

Test-Time Strategies for More Efficient and Accurate Agentic RAG

Resumo

Support