Test-Time-Strategien für effizientere und genauere agentenbasierte RAG-Systeme

Zusammenfassung

Retrieval-Augmented Generation (RAG)-Systeme stehen vor Herausforderungen bei komplexen, mehrstufigen (Multihop) Fragen. Agentenbasierte Frameworks wie Search-R1 (Jin et al., 2025), die iterativ arbeiten, wurden vorgeschlagen, um diese Komplexitäten zu adressieren. Solche Ansätze können jedoch Ineffizienzen verursachen, darunter die wiederholte Abfrage bereits verarbeiteter Informationen und Schwierigkeiten, die abgerufenen Ergebnisse effektiv im aktuellen Generierungsprompt zu kontextualisieren. Diese Probleme können zu unnötigen Abfragezyklen, suboptimaler Reasoning-Leistung, ungenauen Antworten und erhöhtem Token-Verbrauch führen. In diesem Artikel untersuchen wir Modifikationen zur Laufzeit an der Search-R1-Pipeline, um diese identifizierten Schwächen zu mildern. Konkret erforschen wir die Integration zweier Komponenten und deren Kombination: ein Kontextualisierungsmodul zur besseren Einbindung relevanter Informationen aus abgerufenen Dokumenten in den Reasoning-Prozess und ein Deduplizierungsmodul, das bereits abgerufene Dokumente durch die nächstrelevantesten ersetzt. Wir evaluieren unsere Ansätze mit den Datensätzen HotpotQA (Yang et al., 2018) und Natural Questions (Kwiatkowski et al., 2019) und berichten den Exact Match (EM)-Score, eine Bewertung der Antwortkorrektheit mittels LLM-as-a-Judge sowie die durchschnittliche Anzahl an Abfragezyklen. Unsere beste Variante, die GPT-4.1-mini zur Kontextualisierung nutzt, erzielt eine Steigerung des EM-Scores um 5,6 % und reduziert die Anzahl der Abfragezyklen um 10,5 % im Vergleich zur Search-R1-Baseline. Dies demonstriert eine verbesserte Antwortgenauigkeit und Abfrageeffizienz.

English

Retrieval-Augmented Generation (RAG) systems face challenges with complex, multihop questions, and agentic frameworks such as Search-R1 (Jin et al., 2025), which operates iteratively, have been proposed to address these complexities. However, such approaches can introduce inefficiencies, including repetitive retrieval of previously processed information and challenges in contextualizing retrieved results effectively within the current generation prompt. Such issues can lead to unnecessary retrieval turns, suboptimal reasoning, inaccurate answers, and increased token consumption. In this paper, we investigate test-time modifications to the Search-R1 pipeline to mitigate these identified shortcomings. Specifically, we explore the integration of two components and their combination: a contextualization module to better integrate relevant information from retrieved documents into reasoning, and a de-duplication module that replaces previously retrieved documents with the next most relevant ones. We evaluate our approaches using the HotpotQA (Yang et al., 2018) and the Natural Questions (Kwiatkowski et al., 2019) datasets, reporting the exact match (EM) score, an LLM-as-a-Judge assessment of answer correctness, and the average number of turns. Our best-performing variant, utilizing GPT-4.1-mini for contextualization, achieves a 5.6% increase in EM score and reduces the number of turns by 10.5% compared to the Search-R1 baseline, demonstrating improved answer accuracy and retrieval efficiency.

Test-Time-Strategien für effizientere und genauere agentenbasierte RAG-Systeme

Test-Time Strategies for More Efficient and Accurate Agentic RAG

Zusammenfassung

Support