L'Eccesso di Ricerca nei Modelli Linguistici di Grande Dimensione Potenziati dalla Ricerca
Over-Searching in Search-Augmented Large Language Models
January 9, 2026
Autori: Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) potenziati dalla ricerca eccellono in compiti ad alta intensità di conoscenza grazie all'integrazione di recupero esterno. Tuttavia, spesso incorrono in un eccesso di ricerca (over-searching) – invocando inutilmente lo strumento di ricerca anche quando questo non migliora la qualità della risposta, il che porta a inefficienze computazionali e allucinazioni attraverso l'incorporazione di contesto irrilevante. In questo lavoro, conduciamo una valutazione sistematica dell'eccesso di ricerca attraverso molteplici dimensioni, inclusi tipi di query, categorie di modelli, condizioni di recupero e conversazioni multi-turno. I nostri risultati mostrano che: (i) la ricerca generalmente migliora l'accuratezza delle risposte per query rispondibili, ma compromette l'astensione per quelle non rispondibili; (ii) l'eccesso di ricerca è più pronunciato nei modelli di ragionamento complesso e nei sistemi di ricerca approfondita, è aggravato da recupero rumoroso e si accumula across i turni nelle conversazioni multi-turno; e (iii) la composizione delle evidenze recuperate è cruciale, poiché la presenza di evidenze negative migliora l'astensione. Per quantificare l'eccesso di ricerca, introduciamo il Tokens Per Correctness (TPC), una metrica di valutazione che cattura il trade-off prestazioni-costo per gli LLM potenziati dalla ricerca. Infine, investigiamo approcci di mitigazione a livello sia della query che del recupero e rilasciamo l'OverSearchQA per promuovere la ricerca continua su LLM potenziati dalla ricerca efficienti.
English
Search-augmented large language models (LLMs) excel at knowledge-intensive tasks by integrating external retrieval. However, they often over-search -- unnecessarily invoking search tool even when it does not improve response quality, which leads to computational inefficiency and hallucinations by incorporating irrelevant context. In this work, we conduct a systematic evaluation of over-searching across multiple dimensions, including query types, model categories, retrieval conditions, and multi-turn conversations. Our finding shows: (i) search generally improves answer accuracy on answerable queries but harms abstention on unanswerable ones; (ii) over-searching is more pronounced in complex reasoning models and deep research systems, is exacerbated by noisy retrieval, and compounds across turns in multi-turn conversations; and (iii) the composition of retrieved evidence is crucial, as the presence of negative evidence improves abstention. To quantify over-searching, we introduce Tokens Per Correctness (TPC), an evaluation metric that captures the performance-cost trade-off for search-augmented LLMs. Lastly, we investigate mitigation approaches at both the query and retrieval levels and release the OverSearchQA to foster continued research into efficient search-augmented LLMs.