Stratégies en temps de test pour des systèmes RAG agentiques plus efficaces et précis

Résumé

Les systèmes de génération augmentée par récupération (RAG) rencontrent des difficultés face aux questions complexes à inférence multiple. Des cadres agentiels tels que Search-R1 (Jin et al., 2025), fonctionnant de manière itérative, ont été proposés pour résoudre ces complexités. Cependant, ces approches peuvent introduire des inefficacités, incluant la récupération répétitive d'informations déjà traitées et des défis dans la contextualisation efficace des résultats récupérés au sein de l'invite de génération courante. Ces problèmes peuvent entraîner des cycles de récupération superflus, un raisonnement sous-optimal, des réponses inexactes et une consommation accrue de tokens. Dans cet article, nous étudions des modifications en temps de test apportées au pipeline Search-R1 pour atténuer ces lacunes identifiées. Plus précisément, nous explorons l'intégration de deux composants et leur combinaison : un module de contextualisation pour mieux intégrer les informations pertinentes des documents récupérés dans le raisonnement, et un module de déduplication qui remplace les documents précédemment récupérés par les suivants les plus pertinents. Nous évaluons nos approches à l'aide des jeux de données HotpotQA (Yang et al., 2018) et Natural Questions (Kwiatkowski et al., 2019), en rapportant le score de correspondance exacte (EM), une évaluation de l'exactitude des réponses par LLM-comme-juge, et le nombre moyen d'itérations. Notre variante la plus performante, utilisant GPT-4.1-mini pour la contextualisation, obtient une augmentation de 5,6 % du score EM et réduit le nombre d'itérations de 10,5 % par rapport à la baseline Search-R1, démontrant ainsi une amélioration de la précision des réponses et de l'efficacité de la récupération.

English

Retrieval-Augmented Generation (RAG) systems face challenges with complex, multihop questions, and agentic frameworks such as Search-R1 (Jin et al., 2025), which operates iteratively, have been proposed to address these complexities. However, such approaches can introduce inefficiencies, including repetitive retrieval of previously processed information and challenges in contextualizing retrieved results effectively within the current generation prompt. Such issues can lead to unnecessary retrieval turns, suboptimal reasoning, inaccurate answers, and increased token consumption. In this paper, we investigate test-time modifications to the Search-R1 pipeline to mitigate these identified shortcomings. Specifically, we explore the integration of two components and their combination: a contextualization module to better integrate relevant information from retrieved documents into reasoning, and a de-duplication module that replaces previously retrieved documents with the next most relevant ones. We evaluate our approaches using the HotpotQA (Yang et al., 2018) and the Natural Questions (Kwiatkowski et al., 2019) datasets, reporting the exact match (EM) score, an LLM-as-a-Judge assessment of answer correctness, and the average number of turns. Our best-performing variant, utilizing GPT-4.1-mini for contextualization, achieves a 5.6% increase in EM score and reduces the number of turns by 10.5% compared to the Search-R1 baseline, demonstrating improved answer accuracy and retrieval efficiency.

Stratégies en temps de test pour des systèmes RAG agentiques plus efficaces et précis

Test-Time Strategies for More Efficient and Accurate Agentic RAG

Résumé

Support