보다 효율적이고 정확한 에이전트형 RAG를 위한 테스트 타임 전략
Test-Time Strategies for More Efficient and Accurate Agentic RAG
March 12, 2026
저자: Brian Zhang, Deepti Guntur, Zhiyang Zuo, Abhinav Sharma, Shreyas Chaudhari, Wenlong Zhao, Franck Dernoncourt, Puneet Mathur, Ryan Rossi, Nedim Lipka
cs.AI
초록
검색 증강 생성(RAG) 시스템은 복잡한 다중 홉 질문 처리에 어려움을 겪으며, 이러한 복잡성을 해결하기 위해 Search-R1(Jin et al., 2025)과 같은 반복적 작동 방식의 에이전트 기반 프레임워크가 제안되었습니다. 그러나 이러한 접근법은 이전에 처리된 정보의 반복적 검색이나 검색 결과를 현재 생성 프롬프트에 효과적으로 정교화하는 데 따른 어려움과 같은 비효율성을 초래할 수 있습니다. 이러한 문제는 불필요한 검색 단계 증가, 최적이 아닌 추론, 부정확한 답변 생성 및 토큰 소비 증가로 이어질 수 있습니다.
본 논문에서는 검증 단계에서 Search-R1 파이프라인을 수정하여 이러한 단점을 완화하는 방안을 연구합니다. 구체적으로, 두 가지 구성 요소의 통합과 그 조합을 탐구합니다: 검색된 문서의 관련 정보를 추론 과정에 더 효과적으로 통합하기 위한 정교화 모듈과, 이전에 검색된 문서를 다음으로 가장 관련성 높은 문서로 대체하는 중복 제거 모듈입니다. 우리의 접근법을 HotpotQA(Yang et al., 2018) 및 Natural Questions(Kwiatkowski et al., 2019) 데이터셋을 사용하여 평가하며, 정확일치(EM) 점수, 답변 정확도에 대한 LLM-as-a-Judge 평가, 평균 검색 단계 수를 보고합니다.
GPT-4.1-mini를 정교화에 활용한 우리의 최고 성능 변형은 Search-R1 기준선 대비 EM 점수 5.6% 향상과 검색 단계 수 10.5% 감소를 달성하여, 답변 정확도와 검색 효율성이 개선되었음을 입증했습니다.
English
Retrieval-Augmented Generation (RAG) systems face challenges with complex, multihop questions, and agentic frameworks such as Search-R1 (Jin et al., 2025), which operates iteratively, have been proposed to address these complexities. However, such approaches can introduce inefficiencies, including repetitive retrieval of previously processed information and challenges in contextualizing retrieved results effectively within the current generation prompt. Such issues can lead to unnecessary retrieval turns, suboptimal reasoning, inaccurate answers, and increased token consumption.
In this paper, we investigate test-time modifications to the Search-R1 pipeline to mitigate these identified shortcomings. Specifically, we explore the integration of two components and their combination: a contextualization module to better integrate relevant information from retrieved documents into reasoning, and a de-duplication module that replaces previously retrieved documents with the next most relevant ones. We evaluate our approaches using the HotpotQA (Yang et al., 2018) and the Natural Questions (Kwiatkowski et al., 2019) datasets, reporting the exact match (EM) score, an LLM-as-a-Judge assessment of answer correctness, and the average number of turns.
Our best-performing variant, utilizing GPT-4.1-mini for contextualization, achieves a 5.6% increase in EM score and reduces the number of turns by 10.5% compared to the Search-R1 baseline, demonstrating improved answer accuracy and retrieval efficiency.