Over-Zoeken in Zoek-Geaugmenteerde Grote Taalmodellen
Over-Searching in Search-Augmented Large Language Models
January 9, 2026
Auteurs: Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra
cs.AI
Samenvatting
Zoek-augmented large language models (LLM's) blinken uit in kennisintensieve taken door integratie van externe retrievalsystemen. Ze vertonen echter vaak overmatig zoekgedrag – onnodig activeren van zoekfunctionaliteit zelfs wanneer dit de responskwaliteit niet verbetert, wat leidt tot computationele inefficiëntie en hallucinaties door opname van irrelevante context. In dit werk voeren we een systematische evaluatie uit van overmatig zoekgedrag langs meerdere dimensies, waaronder querytypes, modelcategorieën, retrievalcondities en multi-turn gesprekken. Onze bevindingen tonen aan: (i) zoeken verbetert over het algemeen de antwoordnauwkeurigheid bij beantwoordbare queries, maar schaast de terughoudendheid bij onbeantwoordbare queries; (ii) overmatig zoekgedrag is meer uitgesproken bij complexe redeneermodellen en diepgaande onderzoekssystemen, wordt versterkt door ruisrijke retrieval, en stapelt zich op over meerdere beurten in gesprekken; en (iii) de samenstelling van opgehaald bewijsmateriaal is cruciaal, aangezien de aanwezigheid van negatief bewijs de terughoudendheid verbetert. Om overmatig zoekgedrag te kwantificeren, introduceren we Tokens Per Correctness (TPC), een evaluatiemetriek die de prestatie-kostenafweging voor zoek-augmented LLM's vastlegt. Ten slotte onderzoeken we mitigatiebenaderingen op zowel query- als retrievalniveau en publiceren we OverSearchQA om voortgezet onderzoek naar efficiënte zoek-augmented LLM's te bevorderen.
English
Search-augmented large language models (LLMs) excel at knowledge-intensive tasks by integrating external retrieval. However, they often over-search -- unnecessarily invoking search tool even when it does not improve response quality, which leads to computational inefficiency and hallucinations by incorporating irrelevant context. In this work, we conduct a systematic evaluation of over-searching across multiple dimensions, including query types, model categories, retrieval conditions, and multi-turn conversations. Our finding shows: (i) search generally improves answer accuracy on answerable queries but harms abstention on unanswerable ones; (ii) over-searching is more pronounced in complex reasoning models and deep research systems, is exacerbated by noisy retrieval, and compounds across turns in multi-turn conversations; and (iii) the composition of retrieved evidence is crucial, as the presence of negative evidence improves abstention. To quantify over-searching, we introduce Tokens Per Correctness (TPC), an evaluation metric that captures the performance-cost trade-off for search-augmented LLMs. Lastly, we investigate mitigation approaches at both the query and retrieval levels and release the OverSearchQA to foster continued research into efficient search-augmented LLMs.