Sur la robustesse des récupéreurs denses basés sur LLM : une analyse systématique de la généralisabilité et de la stabilité

Résumé

Les grands modèles de langage (LLM) de type « decodeur uniquement » remplacent progressivement les architectures de type BERT comme fondement de la recherche dense, obtenant des gains de performance substantiels et une adoption généralisée. Cependant, la robustesse de ces systèmes de recherche basés sur les LLM reste peu explorée. Dans cet article, nous présentons la première étude systématique de la robustesse des meilleurs systèmes de recherche dense open-source basés sur des LLM, selon deux perspectives complémentaires : la généralisabilité et la stabilité. Pour la généralisabilité, nous évaluons l'efficacité de la recherche sur quatre benchmarks couvrant 30 jeux de données, en utilisant des modèles linéaires à effets mixtes pour estimer la performance moyenne marginale et distinguer la capacité intrinsèque du modèle de l'hétérogénéité des jeux de données. Notre analyse révèle que si les modèles ajustés par instructions excellent généralement, ceux optimisés pour le raisonnement complexe subissent souvent une « taxe de spécialisation », affichant une généralisabilité limitée dans des contextes plus larges. Pour la stabilité, nous évaluons la résilience des modèles face à la fois aux variations involontaires des requêtes (par exemple, paraphrases, fautes de frappe) et aux attaques adversaires malveillantes (par exemple, l'empoisonnement du corpus). Nous constatons que les systèmes de recherche basés sur les LLM montrent une robustesse améliorée contre les fautes de frappe et l'empoisonnement du corpus par rapport aux modèles de référence de type « encodeur uniquement », mais restent vulnérables aux perturbations sémantiques comme la substitution par synonymes. Une analyse plus poussée montre que la géométrie des embeddings (par exemple, l'uniformité angulaire) fournit des signaux prédictifs pour la stabilité lexicale et suggère que l'augmentation de la taille des modèles améliore généralement la robustesse. Ces résultats éclairent la conception future de systèmes de recherche conscients de la robustesse et l'établissement de benchmarks principés. Notre code est disponible publiquement à l'adresse https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.

English

Decoder-only large language models (LLMs) are increasingly replacing BERT-style architectures as the backbone for dense retrieval, achieving substantial performance gains and broad adoption. However, the robustness of these LLM-based retrievers remains underexplored. In this paper, we present the first systematic study of the robustness of state-of-the-art open-source LLM-based dense retrievers from two complementary perspectives: generalizability and stability. For generalizability, we evaluate retrieval effectiveness across four benchmarks spanning 30 datasets, using linear mixed-effects models to estimate marginal mean performance and disentangle intrinsic model capability from dataset heterogeneity. Our analysis reveals that while instruction-tuned models generally excel, those optimized for complex reasoning often suffer a ``specialization tax,'' exhibiting limited generalizability in broader contexts. For stability, we assess model resilience against both unintentional query variations~(e.g., paraphrasing, typos) and malicious adversarial attacks~(e.g., corpus poisoning). We find that LLM-based retrievers show improved robustness against typos and corpus poisoning compared to encoder-only baselines, yet remain vulnerable to semantic perturbations like synonymizing. Further analysis shows that embedding geometry (e.g., angular uniformity) provides predictive signals for lexical stability and suggests that scaling model size generally improves robustness. These findings inform future robustness-aware retriever design and principled benchmarking. Our code is publicly available at https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.

Sur la robustesse des récupéreurs denses basés sur LLM : une analyse systématique de la généralisabilité et de la stabilité

On the Robustness of LLM-Based Dense Retrievers: A Systematic Analysis of Generalizability and Stability

Résumé

Support