검색 증강 대규모 언어 모델에서의 과도한 검색 문제
Over-Searching in Search-Augmented Large Language Models
January 9, 2026
저자: Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra
cs.AI
초록
검색 증강 대규모 언어 모델(LLM)은 외부 검색을 통합하여 지식 집약적 작업에서 뛰어난 성능을 보입니다. 그러나 이러한 모델들은 종종 과도한 검색을 수행하는데, 이는 응답 품질 향상에 도움이 되지 않을 때에도 불필요하게 검색 도구를 호출하여 계산 비효율성을 초래하고, 관련 없는 문맥을 포함시킴으로써 허구적 응답(hallucination)을 유발합니다. 본 연구에서는 질의 유형, 모델 범주, 검색 조건, 다중 회차 대화를 포함한 다차원적 측면에서 과도한 검색에 대한 체계적인 평가를 수행합니다. 우리의 연구 결과는 다음과 같습니다: (i) 검색은 일반적으로 답변이 가능한 질의의 정확도는 향상시키지만, 답변이 불가능한 질의의 응답 자제(abstention) 능력은 저해합니다; (ii) 과도한 검색 현상은 복잡한 추론 모델과 심층 연구 시스템에서 더 두드러지며, 노이즈가 많은 검색 환경에서 악화되고, 다중 회차 대화에서 회차를 거듭하며 누적됩니다; (iii) 검색된 증거의 구성은 매우 중요하며, 부정적 증거(negative evidence)의 존재가 응답 자제 능력을 향상시킵니다. 과도한 검색을 정량화하기 위해 우리는 검색 증강 LLM의 성능-비용 절충 관계를 포착하는 평가 지표인 정확도 당 토큰 수(Tokens Per Correctness, TPC)를 제안합니다. 마지막으로, 질의 수준과 검색 수준 모두에서 완화 방안을 탐구하고, 효율적인 검색 증강 LLM 연구의 지속적 발전을 촉진하기 위해 OverSearchQA 데이터셋을 공개합니다.
English
Search-augmented large language models (LLMs) excel at knowledge-intensive tasks by integrating external retrieval. However, they often over-search -- unnecessarily invoking search tool even when it does not improve response quality, which leads to computational inefficiency and hallucinations by incorporating irrelevant context. In this work, we conduct a systematic evaluation of over-searching across multiple dimensions, including query types, model categories, retrieval conditions, and multi-turn conversations. Our finding shows: (i) search generally improves answer accuracy on answerable queries but harms abstention on unanswerable ones; (ii) over-searching is more pronounced in complex reasoning models and deep research systems, is exacerbated by noisy retrieval, and compounds across turns in multi-turn conversations; and (iii) the composition of retrieved evidence is crucial, as the presence of negative evidence improves abstention. To quantify over-searching, we introduce Tokens Per Correctness (TPC), an evaluation metric that captures the performance-cost trade-off for search-augmented LLMs. Lastly, we investigate mitigation approaches at both the query and retrieval levels and release the OverSearchQA to foster continued research into efficient search-augmented LLMs.