Sobre a Robustez dos Recuperadores Densos Baseados em LLM: Uma Análise Sistemática da Generalizabilidade e da Estabilidade
On the Robustness of LLM-Based Dense Retrievers: A Systematic Analysis of Generalizability and Stability
April 17, 2026
Autores: Yongkang Li, Panagiotis Eustratiadis, Yixing Fan, Evangelos Kanoulas
cs.AI
Resumo
Os modelos de linguagem grandes (LLMs) do tipo "decoder-only" estão a substituir progressivamente as arquiteturas do estilo BERT como base para a recuperação densa, alcançando ganhos substanciais de desempenho e uma ampla adoção. No entanto, a robustez destes recuperadores baseados em LLM permanece pouco explorada. Neste artigo, apresentamos o primeiro estudo sistemático da robustez dos recuperadores densos de última geração baseados em LLM de código aberto, sob duas perspetivas complementares: generalização e estabilidade. Para a generalização, avaliamos a eficácia da recuperação em quatro benchmarks abrangendo 30 conjuntos de dados, utilizando modelos lineares de efeitos mistos para estimar o desempenho médio marginal e separar a capacidade intrínseca do modelo da heterogeneidade dos conjuntos de dados. A nossa análise revela que, embora os modelos ajustados por instrução geralmente se destaquem, aqueles otimizados para raciocínio complexo frequentemente sofrem uma "taxa de especialização", exibindo uma generalização limitada em contextos mais amplos. Para a estabilidade, avaliamos a resiliência do modelo contra variações de consulta não intencionais (por exemplo, paráfrases, erros tipográficos) e ataques adversariais maliciosos (por exemplo, envenenamento do *corpus*). Verificamos que os recuperadores baseados em LLM mostram uma robustez melhorada contra erros tipográficos e envenenamento do *corpus* em comparação com as linhas de base baseadas apenas em *encoders*, mas permanecem vulneráveis a perturbações semânticas como a substituição por sinónimos. Uma análise mais aprofundada mostra que a geometria dos *embeddings* (por exemplo, uniformidade angular) fornece sinais preditivos para a estabilidade lexical e sugere que a escalagem do tamanho do modelo geralmente melhora a robustez. Estas descobertas informam o futuro desenho de recuperadores com consciência da robustez e a criação de benchmarks fundamentados. O nosso código está publicamente disponível em https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.
English
Decoder-only large language models (LLMs) are increasingly replacing BERT-style architectures as the backbone for dense retrieval, achieving substantial performance gains and broad adoption. However, the robustness of these LLM-based retrievers remains underexplored. In this paper, we present the first systematic study of the robustness of state-of-the-art open-source LLM-based dense retrievers from two complementary perspectives: generalizability and stability. For generalizability, we evaluate retrieval effectiveness across four benchmarks spanning 30 datasets, using linear mixed-effects models to estimate marginal mean performance and disentangle intrinsic model capability from dataset heterogeneity. Our analysis reveals that while instruction-tuned models generally excel, those optimized for complex reasoning often suffer a ``specialization tax,'' exhibiting limited generalizability in broader contexts. For stability, we assess model resilience against both unintentional query variations~(e.g., paraphrasing, typos) and malicious adversarial attacks~(e.g., corpus poisoning). We find that LLM-based retrievers show improved robustness against typos and corpus poisoning compared to encoder-only baselines, yet remain vulnerable to semantic perturbations like synonymizing. Further analysis shows that embedding geometry (e.g., angular uniformity) provides predictive signals for lexical stability and suggests that scaling model size generally improves robustness. These findings inform future robustness-aware retriever design and principled benchmarking. Our code is publicly available at https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.