Busca Excessiva em Modelos de Linguagem de Grande Porte Aumentados por Busca

Resumo

Os modelos de linguagem de grande porte (LLMs) aumentados por busca destacam-se em tarefas intensivas em conhecimento ao integrar recuperação externa. No entanto, eles frequentemente realizam buscas excessivas – invocando desnecessariamente a ferramenta de busca mesmo quando isso não melhora a qualidade da resposta, o que leva a ineficiência computacional e alucinações pela incorporação de contexto irrelevante. Neste trabalho, realizamos uma avaliação sistemática da busca excessiva em múltiplas dimensões, incluindo tipos de consulta, categorias de modelo, condições de recuperação e conversas multiturno. Nossas descobertas mostram: (i) a busca geralmente melhora a precisão da resposta em consultas respondíveis, mas prejudica a abstenção em consultas irrespondíveis; (ii) a busca excessiva é mais pronunciada em modelos de raciocínio complexo e sistemas de pesquisa profunda, é exacerbada por recuperação ruidosa e se acumula ao longo das interações em conversas multiturno; e (iii) a composição da evidência recuperada é crucial, pois a presença de evidência negativa melhora a abstenção. Para quantificar a busca excessiva, introduzimos Tokens por Correção (TPC), uma métrica de avaliação que captura o compromisso entre desempenho e custo para LLMs aumentados por busca. Por fim, investigamos abordagens de mitigação tanto em nível de consulta quanto de recuperação e disponibilizamos o OverSearchQA para fomentar pesquisas contínuas sobre LLMs aumentados por busca eficientes.

English

Search-augmented large language models (LLMs) excel at knowledge-intensive tasks by integrating external retrieval. However, they often over-search -- unnecessarily invoking search tool even when it does not improve response quality, which leads to computational inefficiency and hallucinations by incorporating irrelevant context. In this work, we conduct a systematic evaluation of over-searching across multiple dimensions, including query types, model categories, retrieval conditions, and multi-turn conversations. Our finding shows: (i) search generally improves answer accuracy on answerable queries but harms abstention on unanswerable ones; (ii) over-searching is more pronounced in complex reasoning models and deep research systems, is exacerbated by noisy retrieval, and compounds across turns in multi-turn conversations; and (iii) the composition of retrieved evidence is crucial, as the presence of negative evidence improves abstention. To quantify over-searching, we introduce Tokens Per Correctness (TPC), an evaluation metric that captures the performance-cost trade-off for search-augmented LLMs. Lastly, we investigate mitigation approaches at both the query and retrieval levels and release the OverSearchQA to foster continued research into efficient search-augmented LLMs.

Busca Excessiva em Modelos de Linguagem de Grande Porte Aumentados por Busca

Over-Searching in Search-Augmented Large Language Models

Resumo

Support