Test-Time Strategieën voor Efficiëntere en Nauwkeurigere Agent-Gestuurde RAG

Samenvatting

Retrieval-Augmented Generation (RAG)-systemen kampen met uitdagingen bij complexe, multihop vragen. Agent-gebaseerde frameworks zoals Search-R1 (Jin et al., 2025), die iteratief werken, zijn voorgesteld om deze complexiteiten aan te pakken. Dergelijke benaderingen kunnen echter inefficiënties introduceren, zoals de herhaaldelijke retrievable van reeds verwerkte informatie en problemen bij het effectief contextualiseren van opgehaalde resultaten binnen de huidige generatie-prompt. Deze problemen kunnen leiden tot onnodige retrieval-cycli, suboptimale redenering, onnauwkeurige antwoorden en een hoger tokenverbruik. In dit artikel onderzoeken we testtijd-aanpassingen aan de Search-R1-pipeline om deze geïdentificeerde tekortkomingen te mitigeren. Specifiek exploreren we de integratie van twee componenten en hun combinatie: een contextualisatiemodule om relevante informatie uit opgehaalde documenten beter te integreren in de redenering, en een deduplicatiemodule die eerder opgehaalde documenten vervangt door de volgende meest relevante. We evalueren onze benaderingen met de HotpotQA (Yang et al., 2018) en de Natural Questions (Kwiatkowski et al., 2019) datasets, en rapporteren de exact match (EM)-score, een LLM-as-a-Judge-beoordeling van antwoornauwkeurigheid, en het gemiddeld aantal cycli. Onze best presterende variant, die GPT-4.1-mini gebruikt voor contextualisatie, behaalt een stijging van 5,6% in de EM-score en reduceert het aantal cycli met 10,5% vergeleken met de Search-R1-basislijn, wat duidt op verbeterde antwoornauwkeurigheid en retrievalefficiëntie.

English

Retrieval-Augmented Generation (RAG) systems face challenges with complex, multihop questions, and agentic frameworks such as Search-R1 (Jin et al., 2025), which operates iteratively, have been proposed to address these complexities. However, such approaches can introduce inefficiencies, including repetitive retrieval of previously processed information and challenges in contextualizing retrieved results effectively within the current generation prompt. Such issues can lead to unnecessary retrieval turns, suboptimal reasoning, inaccurate answers, and increased token consumption. In this paper, we investigate test-time modifications to the Search-R1 pipeline to mitigate these identified shortcomings. Specifically, we explore the integration of two components and their combination: a contextualization module to better integrate relevant information from retrieved documents into reasoning, and a de-duplication module that replaces previously retrieved documents with the next most relevant ones. We evaluate our approaches using the HotpotQA (Yang et al., 2018) and the Natural Questions (Kwiatkowski et al., 2019) datasets, reporting the exact match (EM) score, an LLM-as-a-Judge assessment of answer correctness, and the average number of turns. Our best-performing variant, utilizing GPT-4.1-mini for contextualization, achieves a 5.6% increase in EM score and reduces the number of turns by 10.5% compared to the Search-R1 baseline, demonstrating improved answer accuracy and retrieval efficiency.

Test-Time Strategieën voor Efficiëntere en Nauwkeurigere Agent-Gestuurde RAG

Test-Time Strategies for More Efficient and Accurate Agentic RAG

Samenvatting

Support