ChatPaper.aiChatPaper

Sobre-Búsqueda en Modelos de Lenguaje Grandes Aumentados con Búsqueda

Over-Searching in Search-Augmented Large Language Models

January 9, 2026
Autores: Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra
cs.AI

Resumen

Los modelos de lenguaje de gran tamaño (LLM) aumentados con búsqueda destacan en tareas que requieren gran conocimiento al integrar recuperación externa. Sin embargo, frecuentemente realizan búsquedas excesivas (over-searching) —invocando innecesariamente la herramienta de búsqueda incluso cuando no mejora la calidad de la respuesta—, lo que genera ineficiencia computacional y alucinaciones al incorporar contexto irrelevante. En este trabajo, realizamos una evaluación sistemática de la búsqueda excesiva en múltiples dimensiones, incluyendo tipos de consulta, categorías de modelos, condiciones de recuperación y conversaciones multiturno. Nuestros hallazgos muestran que: (i) la búsqueda generalmente mejora la precisión de las respuestas en consultas respondibles, pero perjudica la abstención en las irrespondibles; (ii) la búsqueda excesiva es más pronunciada en modelos de razonamiento complejo y sistemas de investigación profunda, se ve exacerbada por recuperación ruidosa y se acumula en conversaciones multiturno; y (iii) la composición de la evidencia recuperada es crucial, ya que la presencia de evidencia negativa mejora la abstención. Para cuantificar la búsqueda excesiva, introducimos Tokens por Corrección (TPC), una métrica de evaluación que captura la relación rendimiento-costo para LLMs aumentados con búsqueda. Finalmente, investigamos enfoques de mitigación a nivel de consulta y recuperación, y publicamos OverSearchQA para fomentar la investigación continua en LLMs aumentados con búsqueda eficientes.
English
Search-augmented large language models (LLMs) excel at knowledge-intensive tasks by integrating external retrieval. However, they often over-search -- unnecessarily invoking search tool even when it does not improve response quality, which leads to computational inefficiency and hallucinations by incorporating irrelevant context. In this work, we conduct a systematic evaluation of over-searching across multiple dimensions, including query types, model categories, retrieval conditions, and multi-turn conversations. Our finding shows: (i) search generally improves answer accuracy on answerable queries but harms abstention on unanswerable ones; (ii) over-searching is more pronounced in complex reasoning models and deep research systems, is exacerbated by noisy retrieval, and compounds across turns in multi-turn conversations; and (iii) the composition of retrieved evidence is crucial, as the presence of negative evidence improves abstention. To quantify over-searching, we introduce Tokens Per Correctness (TPC), an evaluation metric that captures the performance-cost trade-off for search-augmented LLMs. Lastly, we investigate mitigation approaches at both the query and retrieval levels and release the OverSearchQA to foster continued research into efficient search-augmented LLMs.
PDF21January 13, 2026