Zur Robustheit dicht-vektorisierender Retrieval-Systeme auf LLM-Basis: Eine systematische Analyse von Generalisierbarkeit und Stabilität

Zusammenfassung

Nur-Decoder-Großsprachmodelle (LLMs) ersetzen zunehmend BERT-ähnliche Architekturen als Rückgrat für dichtes Retrieval und erzielen dabei erhebliche Leistungssteigerungen und breite Akzeptanz. Die Robustheit dieser LLM-basierten Retriever ist jedoch noch unzureichend erforscht. In dieser Arbeit präsentieren wir die erste systematische Untersuchung der Robustheit moderner Open-Source LLM-basierter dichter Retriever aus zwei komplementären Perspektiven: Generalisierbarkeit und Stabilität. Für die Generalisierbarkeit bewerten wir die Retrieval-Effektivität über vier Benchmarks hinweg, die 30 Datensätze umfassen, und verwenden lineare gemischte Modelle, um die marginale mittlere Leistung zu schätzen und die intrinsische Modellfähigkeit von der Datensatzheterogenität zu trennen. Unsere Analyse zeigt, dass instruction-getunte Modelle zwar generell hervorragend abschneiden, jedoch für komplexes Reasoning optimierte Modelle oft einen „Spezialisierungsnachteil“ aufweisen und in breiteren Kontexten eine eingeschränkte Generalisierbarkeit zeigen. Für die Stabilität bewerten wir die Modellresilienz gegen unbeabsichtigte Abfragevariationen (z.B. Paraphrasierung, Tippfehler) und bösartige adversariale Angriffe (z.B. Corpus-Poisoning). Wir stellen fest, dass LLM-basierte Retriever im Vergleich zu Encoder-only-Baselines eine verbesserte Robustheit gegen Tippfehler und Corpus-Poisoning aufweisen, aber anfällig für semantische Störungen wie Synonymisierung bleiben. Weitere Analysen zeigen, dass die Einbettungsgeometrie (z.B. winkelmäßige Gleichmäßigkeit) prädiktive Signale für lexikalische Stabilität liefert, und deuten darauf hin, dass die Skalierung der Modellgröße generell die Robustheit verbessert. Diese Erkenntnisse informieren zukünftige robustheitsbewusste Retriever-Designs und prinzipielle Benchmarking-Verfahren. Unser Code ist öffentlich verfügbar unter https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.

English

Decoder-only large language models (LLMs) are increasingly replacing BERT-style architectures as the backbone for dense retrieval, achieving substantial performance gains and broad adoption. However, the robustness of these LLM-based retrievers remains underexplored. In this paper, we present the first systematic study of the robustness of state-of-the-art open-source LLM-based dense retrievers from two complementary perspectives: generalizability and stability. For generalizability, we evaluate retrieval effectiveness across four benchmarks spanning 30 datasets, using linear mixed-effects models to estimate marginal mean performance and disentangle intrinsic model capability from dataset heterogeneity. Our analysis reveals that while instruction-tuned models generally excel, those optimized for complex reasoning often suffer a ``specialization tax,'' exhibiting limited generalizability in broader contexts. For stability, we assess model resilience against both unintentional query variations~(e.g., paraphrasing, typos) and malicious adversarial attacks~(e.g., corpus poisoning). We find that LLM-based retrievers show improved robustness against typos and corpus poisoning compared to encoder-only baselines, yet remain vulnerable to semantic perturbations like synonymizing. Further analysis shows that embedding geometry (e.g., angular uniformity) provides predictive signals for lexical stability and suggests that scaling model size generally improves robustness. These findings inform future robustness-aware retriever design and principled benchmarking. Our code is publicly available at https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.

Zur Robustheit dicht-vektorisierender Retrieval-Systeme auf LLM-Basis: Eine systematische Analyse von Generalisierbarkeit und Stabilität

On the Robustness of LLM-Based Dense Retrievers: A Systematic Analysis of Generalizability and Stability

Zusammenfassung

Support