Over de robuustheid van op LLM gebaseerde dense retrievers: een systematische analyse van generaliseerbaarheid en stabiliteit

Samenvatting

Decoder-only large language models (LLM's) vervangen in toenemende mate BERT-achtige architecturen als ruggengraat voor dense retrieval, waarbij ze aanzienlijke prestatieverbeteringen en brede adoptie bereiken. De robuustheid van deze op LLM's gebaseerde retrievers blijft echter onderbelicht. In dit artikel presenteren we de eerste systematische studie naar de robuustheid van state-of-the-art open-source LLM-gebaseerde dense retrievers vanuit twee complementaire perspectieven: generaliseerbaarheid en stabiliteit. Voor generaliseerbaarheid evalueren we de retrieval-effectiviteit over vier benchmarks verspreid over 30 datasets, waarbij we lineaire mixed-effects modellen gebruiken om de marginale gemiddelde prestatie te schatten en intrinsieke modelcapaciteit te scheiden van datasetheterogeniteit. Onze analyse toont aan dat instruction-getunde modellen over het algemeen excelleren, maar dat modellen geoptimaliseerd voor complex redeneren vaak een 'specialisatiebelasting' ondervinden, wat zich uit in beperkte generaliseerbaarheid in bredere contexten. Voor stabiliteit beoordelen we de veerkracht van modellen tegen zowel onbedoelde queryvariaties (bijv. parafrasering, typefouten) als kwaadwillige adversariële aanvallen (bijv. corpusvergiftiging). We constateren dat LLM-gebaseerde retrievers een verbeterde robuustheid vertonen tegen typefouten en corpusvergiftiging in vergelijking met encoder-only baselinemodellen, maar kwetsbaar blijven voor semantische perturbaties zoals synoniemgebruik. Verdere analyse toont aan dat embeddeddingsgeometrie (bijv. hoekuniformiteit) voorspellende signalen biedt voor lexicale stabiliteit en suggereert dat het schalen van modelgrootte over het algemeen de robuustheid verbetert. Deze bevindingen zijn richtinggevend voor toekomstig robuustheidsbewust retriever-ontwerp en principiële benchmarking. Onze code is openbaar beschikbaar op https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.

English

Decoder-only large language models (LLMs) are increasingly replacing BERT-style architectures as the backbone for dense retrieval, achieving substantial performance gains and broad adoption. However, the robustness of these LLM-based retrievers remains underexplored. In this paper, we present the first systematic study of the robustness of state-of-the-art open-source LLM-based dense retrievers from two complementary perspectives: generalizability and stability. For generalizability, we evaluate retrieval effectiveness across four benchmarks spanning 30 datasets, using linear mixed-effects models to estimate marginal mean performance and disentangle intrinsic model capability from dataset heterogeneity. Our analysis reveals that while instruction-tuned models generally excel, those optimized for complex reasoning often suffer a ``specialization tax,'' exhibiting limited generalizability in broader contexts. For stability, we assess model resilience against both unintentional query variations~(e.g., paraphrasing, typos) and malicious adversarial attacks~(e.g., corpus poisoning). We find that LLM-based retrievers show improved robustness against typos and corpus poisoning compared to encoder-only baselines, yet remain vulnerable to semantic perturbations like synonymizing. Further analysis shows that embedding geometry (e.g., angular uniformity) provides predictive signals for lexical stability and suggests that scaling model size generally improves robustness. These findings inform future robustness-aware retriever design and principled benchmarking. Our code is publicly available at https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.

Over de robuustheid van op LLM gebaseerde dense retrievers: een systematische analyse van generaliseerbaarheid en stabiliteit

On the Robustness of LLM-Based Dense Retrievers: A Systematic Analysis of Generalizability and Stability

Samenvatting

Support