Strategie al Momento del Test per un RAG Agente Più Efficiente e Preciso

Abstract

I sistemi di Generazione Aumentata dal Recupero (RAG) affrontano sfide con domande complesse e multi-hop, e framework agentivi come Search-R1 (Jin et al., 2025), che opera in modo iterativo, sono stati proposti per affrontare queste complessità. Tuttavia, tali approcci possono introdurre inefficienze, incluso il recupero ripetuto di informazioni già processate e difficoltà nel contestualizzare efficacemente i risultati recuperati all'interno del prompt di generazione corrente. Questi problemi possono portare a turni di recupero non necessari, ragionamento subottimale, risposte inaccurate e un aumento del consumo di token. In questo articolo, investigiamo modifiche applicate al momento del test alla pipeline Search-R1 per mitigare queste carenze identificate. Nello specifico, esploriamo l'integrazione di due componenti e la loro combinazione: un modulo di contestualizzazione per integrare meglio le informazioni rilevanti dai documenti recuperati nel ragionamento, e un modulo di deduplica che sostituisce i documenti già recuperati con i successivi più rilevanti. Valutiamo i nostri approcci utilizzando i dataset HotpotQA (Yang et al., 2018) e Natural Questions (Kwiatkowski et al., 2019), riportando il punteggio di corrispondenza esatta (EM), una valutazione della correttezza della risposta tramite LLM-as-a-Judge, e il numero medio di turni. La nostra variante dalle prestazioni migliori, che utilizza GPT-4.1-mini per la contestualizzazione, ottiene un aumento del 5,6% nel punteggio EM e riduce il numero di turni del 10,5% rispetto al baseline Search-R1, dimostrando un miglioramento dell'accuratezza delle risposte e dell'efficienza del recupero.

English

Retrieval-Augmented Generation (RAG) systems face challenges with complex, multihop questions, and agentic frameworks such as Search-R1 (Jin et al., 2025), which operates iteratively, have been proposed to address these complexities. However, such approaches can introduce inefficiencies, including repetitive retrieval of previously processed information and challenges in contextualizing retrieved results effectively within the current generation prompt. Such issues can lead to unnecessary retrieval turns, suboptimal reasoning, inaccurate answers, and increased token consumption. In this paper, we investigate test-time modifications to the Search-R1 pipeline to mitigate these identified shortcomings. Specifically, we explore the integration of two components and their combination: a contextualization module to better integrate relevant information from retrieved documents into reasoning, and a de-duplication module that replaces previously retrieved documents with the next most relevant ones. We evaluate our approaches using the HotpotQA (Yang et al., 2018) and the Natural Questions (Kwiatkowski et al., 2019) datasets, reporting the exact match (EM) score, an LLM-as-a-Judge assessment of answer correctness, and the average number of turns. Our best-performing variant, utilizing GPT-4.1-mini for contextualization, achieves a 5.6% increase in EM score and reduces the number of turns by 10.5% compared to the Search-R1 baseline, demonstrating improved answer accuracy and retrieval efficiency.

Strategie al Momento del Test per un RAG Agente Più Efficiente e Preciso

Test-Time Strategies for More Efficient and Accurate Agentic RAG

Abstract

Support