ChatPaper.aiChatPaper

Übermäßiges Suchen in suchgestützten großen Sprachmodellen

Over-Searching in Search-Augmented Large Language Models

January 9, 2026
papers.authors: Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra
cs.AI

papers.abstract

Suchaugmentierte große Sprachmodelle (Large Language Models, LLMs) übertreffen andere Modelle bei wissensintensiven Aufgaben durch die Integration externer Abfragen. Allerdings neigen sie oft zu Über-Suchen – sie rufen die Suchfunktion unnötig auf, selbst wenn dies die Antwortqualität nicht verbessert, was zu rechenineffizientem Verhalten und Halluzinationen durch die Einbeziehung irrelevanter Kontexte führt. In dieser Arbeit führen wir eine systematische Evaluation von Über-Suchen über mehrere Dimensionen hinweg durch, einschließlich Fragentypen, Modellkategorien, Abfragebedingungen und mehrteiligen Konversationen. Unsere Ergebnisse zeigen: (i) Suchen verbessert generell die Antwortgenauigkeit bei beantwortbaren Fragen, verschlechtert jedoch die Zurückhaltung bei unbeantwortbaren; (ii) Über-Suchen ist ausgeprägter in Modellen für komplexes Schließen und tiefgehenden Recherchesystemen, wird durch verrauschte Abfragen verstärkt und potenziert sich über mehrere Runden in mehrteiligen Konversationen; und (iii) die Zusammensetzung der abgerufenen Evidenz ist entscheidend, da das Vorhandensein negativer Evidenz die Zurückhaltung verbessert. Um Über-Suchen zu quantifizieren, führen wir Tokens Per Correctness (TPC) ein, eine Evaluationsmetrik, die den Kompromiss zwischen Leistung und Kosten für suchaugmentierte LLMs erfasst. Abschließend untersuchen wir Ansätze zur Minderung sowohl auf der Frage- als auch auf der Abfrageebene und veröffentlichen OverSearchQA, um die weitere Forschung zu effizienten suchaugmentierten LLMs zu fördern.
English
Search-augmented large language models (LLMs) excel at knowledge-intensive tasks by integrating external retrieval. However, they often over-search -- unnecessarily invoking search tool even when it does not improve response quality, which leads to computational inefficiency and hallucinations by incorporating irrelevant context. In this work, we conduct a systematic evaluation of over-searching across multiple dimensions, including query types, model categories, retrieval conditions, and multi-turn conversations. Our finding shows: (i) search generally improves answer accuracy on answerable queries but harms abstention on unanswerable ones; (ii) over-searching is more pronounced in complex reasoning models and deep research systems, is exacerbated by noisy retrieval, and compounds across turns in multi-turn conversations; and (iii) the composition of retrieved evidence is crucial, as the presence of negative evidence improves abstention. To quantify over-searching, we introduce Tokens Per Correctness (TPC), an evaluation metric that captures the performance-cost trade-off for search-augmented LLMs. Lastly, we investigate mitigation approaches at both the query and retrieval levels and release the OverSearchQA to foster continued research into efficient search-augmented LLMs.
PDF21January 13, 2026