検索拡張大規模言語モデルにおける過剰検索問題
Over-Searching in Search-Augmented Large Language Models
January 9, 2026
著者: Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra
cs.AI
要旨
検索拡張型大規模言語モデル(LLM)は、外部検索を統合することで知識集約型タスクにおいて優れた性能を発揮する。しかし、応答品質の向上に寄与しない場合でも不必要に検索ツールを起動する「過剰検索」が頻繁に発生し、計算効率の低下や無関係な文脈の組み込みによる虚構生成(hallucination)を引き起こす。本研究では、クエリ種類・モデルカテゴリ・検索条件・マルチターン対話を含む多次元にわたる過剰検索の体系的評価を実施する。主な発見は以下である:(i)検索は一般に回答可能クエリの正答率を向上させるが、回答不能クエリにおける保留性能を損なう(ii)過剰検索は複雑な推論モデルや詳細検索システムで顕著であり、ノイズの多い検索環境で悪化し、マルチターン対話においてターン跨ぎで累積する(iii)検索証拠の構成が重要であり、否定証拠の存在が保留性能を向上させる。過剰検索を定量化するため、検索拡張型LLMの性能とコストのトレードオフを捉える新評価指標「Tokens Per Correctness(TPC)」を提案する。最後に、クエリレベルと検索レベル双方での緩和手法を検討し、効率的な検索拡張型LLMの研究促進のため評価データセットOverSearchQAを公開する。
English
Search-augmented large language models (LLMs) excel at knowledge-intensive tasks by integrating external retrieval. However, they often over-search -- unnecessarily invoking search tool even when it does not improve response quality, which leads to computational inefficiency and hallucinations by incorporating irrelevant context. In this work, we conduct a systematic evaluation of over-searching across multiple dimensions, including query types, model categories, retrieval conditions, and multi-turn conversations. Our finding shows: (i) search generally improves answer accuracy on answerable queries but harms abstention on unanswerable ones; (ii) over-searching is more pronounced in complex reasoning models and deep research systems, is exacerbated by noisy retrieval, and compounds across turns in multi-turn conversations; and (iii) the composition of retrieved evidence is crucial, as the presence of negative evidence improves abstention. To quantify over-searching, we introduce Tokens Per Correctness (TPC), an evaluation metric that captures the performance-cost trade-off for search-augmented LLMs. Lastly, we investigate mitigation approaches at both the query and retrieval levels and release the OverSearchQA to foster continued research into efficient search-augmented LLMs.