Sulla Robustezza dei Recuperatori Densi Basati su LLM: Un'Analisi Sistematica della Generalizzabilità e della Stabilità

Abstract

I modelli linguistici di grandi dimensioni di tipo decoder-only (LLM) stanno progressivamente sostituendo le architetture in stile BERT come backbone per il dense retrieval, ottenendo miglioramenti prestazionali sostanziali e un'ampia adozione. Tuttavia, la robustezza di questi retrieval basati su LLM rimane poco esplorata. In questo articolo, presentiamo il primo studio sistematico sulla robustezza dei dense retriever open-source all'avanguardia basati su LLM da due prospettive complementari: generalizzabilità e stabilità. Per quanto riguarda la generalizzabilità, valutiamo l'efficacia del retrieval su quattro benchmark che comprendono 30 dataset, utilizzando modelli lineari ad effetti misti per stimare la performance media marginale e separare la capacità intrinseca del modello dall'eterogeneità del dataset. La nostra analisi rivela che, sebbene i modelli addestrati con istruzioni eccellano generalmente, quelli ottimizzati per il ragionamento complesso spesso subiscono una "tassa di specializzazione", mostrando una generalizzabilità limitata in contesti più ampi. Per la stabilità, valutiamo la resilienza dei modelli sia contro variazioni non intenzionali delle query (ad esempio, parafrasi, errori di battitura) sia contro attacchi adversariali malevoli (ad esempio, avvelenamento del corpus). Rileviamo che i retrieval basati su LLM mostrano una robustezza migliorata contro gli errori di battitura e l'avvelenamento del corpus rispetto ai baseline encoder-only, ma rimangono vulnerabili a perturbazioni semantiche come la sostituzione con sinonimi. Un'analisi più approfondita mostra che la geometria degli embedding (ad esempio, l'uniformità angolare) fornisce segnali predittivi per la stabilità lessicale e suggerisce che il ridimensionamento della dimensione del modello generalmente migliora la robustezza. Questi risultati forniscono indicazioni per la futura progettazione di retrieval consapevoli della robustezza e per benchmark basati su principi solidi. Il nostro codice è pubblicamente disponibile all'indirizzo https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.

English

Decoder-only large language models (LLMs) are increasingly replacing BERT-style architectures as the backbone for dense retrieval, achieving substantial performance gains and broad adoption. However, the robustness of these LLM-based retrievers remains underexplored. In this paper, we present the first systematic study of the robustness of state-of-the-art open-source LLM-based dense retrievers from two complementary perspectives: generalizability and stability. For generalizability, we evaluate retrieval effectiveness across four benchmarks spanning 30 datasets, using linear mixed-effects models to estimate marginal mean performance and disentangle intrinsic model capability from dataset heterogeneity. Our analysis reveals that while instruction-tuned models generally excel, those optimized for complex reasoning often suffer a ``specialization tax,'' exhibiting limited generalizability in broader contexts. For stability, we assess model resilience against both unintentional query variations~(e.g., paraphrasing, typos) and malicious adversarial attacks~(e.g., corpus poisoning). We find that LLM-based retrievers show improved robustness against typos and corpus poisoning compared to encoder-only baselines, yet remain vulnerable to semantic perturbations like synonymizing. Further analysis shows that embedding geometry (e.g., angular uniformity) provides predictive signals for lexical stability and suggests that scaling model size generally improves robustness. These findings inform future robustness-aware retriever design and principled benchmarking. Our code is publicly available at https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.

Sulla Robustezza dei Recuperatori Densi Basati su LLM: Un'Analisi Sistematica della Generalizzabilità e della Stabilità

On the Robustness of LLM-Based Dense Retrievers: A Systematic Analysis of Generalizability and Stability

Abstract

Support