ChatPaper.aiChatPaper

La sur-recherche dans les modèles de langage de grande taille augmentés par recherche

Over-Searching in Search-Augmented Large Language Models

January 9, 2026
papers.authors: Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra
cs.AI

papers.abstract

Les grands modèles de langage (LLM) augmentés par recherche excellent dans les tâches nécessitant des connaissances en intégrant des sources externes. Cependant, ils présentent souvent une tendance à la sur-recherche - en invoquant inutilement l'outil de recherche même lorsque cela n'améliore pas la qualité des réponses, ce qui entraîne une inefficacité computationnelle et des hallucinations en incorporant un contexte non pertinent. Dans ce travail, nous réalisons une évaluation systématique de la sur-recherche selon plusieurs dimensions, incluant les types de requêtes, les catégories de modèles, les conditions de recherche et les conversations multi-tours. Nos résultats montrent que : (i) la recherche améliore généralement la précision des réponses pour les requêtes solubles mais nuit à l'abstention pour les requêtes insolubles ; (ii) la sur-recherche est plus prononcée dans les modèles de raisonnement complexe et les systèmes de recherche approfondie, est exacerbée par un bruit de récupération, et s'accentue dans les conversations multi-tours ; et (iii) la composition des preuves récupérées est cruciale, car la présence de preuves négatives améliore l'abstention. Pour quantifier la sur-recherche, nous introduisons les Tokens par Correctitude (TPC), une métrique d'évaluation qui capture le compromis performance-coût pour les LLM augmentés par recherche. Enfin, nous étudions des approches d'atténuation au niveau des requêtes et de la récupération, et publions OverSearchQA pour favoriser la recherche continue sur les LLM augmentés par recherche efficaces.
English
Search-augmented large language models (LLMs) excel at knowledge-intensive tasks by integrating external retrieval. However, they often over-search -- unnecessarily invoking search tool even when it does not improve response quality, which leads to computational inefficiency and hallucinations by incorporating irrelevant context. In this work, we conduct a systematic evaluation of over-searching across multiple dimensions, including query types, model categories, retrieval conditions, and multi-turn conversations. Our finding shows: (i) search generally improves answer accuracy on answerable queries but harms abstention on unanswerable ones; (ii) over-searching is more pronounced in complex reasoning models and deep research systems, is exacerbated by noisy retrieval, and compounds across turns in multi-turn conversations; and (iii) the composition of retrieved evidence is crucial, as the presence of negative evidence improves abstention. To quantify over-searching, we introduce Tokens Per Correctness (TPC), an evaluation metric that captures the performance-cost trade-off for search-augmented LLMs. Lastly, we investigate mitigation approaches at both the query and retrieval levels and release the OverSearchQA to foster continued research into efficient search-augmented LLMs.
PDF21January 13, 2026