О надежности плотных ретриверов на основе больших языковых моделей: систематический анализ обобщающей способности и устойчивости

Аннотация

Крупные языковые модели с декодерной архитектурой (LLM) все чаще заменяют архитектуры стиля BERT в качестве основы для плотного поиска, демонстрируя значительный прирост производительности и широкое внедрение. Однако устойчивость этих ретриверов на основе LLM остается малоизученной. В данной статье мы представляем первое систематическое исследование устойчивости передовых открытых ретриверов на основе LLM с двух взаимодополняющих перспектив: обобщаемости и стабильности. Для оценки обобщаемости мы анализируем эффективность поиска на четырех бенчмарках, охватывающих 30 наборов данных, используя линейные модели со смешанными эффектами для оценки маргинальной средней производительности и разделения внутренней способности модели от неоднородности данных. Наш анализ показывает, что хотя модели, дообученные с инструкциями, в целом преуспевают, модели, оптимизированные для сложных рассуждений, часто страдают от «налога на специализацию», демонстрируя ограниченную обобщаемость в более широких контекстах. Для оценки стабильности мы проверяем устойчивость моделей как к непреднамеренным вариациям запросов (например, парафразы, опечатки), так и к злонамеренным атакам (например, отравление корпуса). Мы обнаружили, что ретриверы на основе LLM демонстрируют повышенную устойчивость к опечаткам и отравлению корпуса по сравнению с базовыми encoder-only моделями, но остаются уязвимыми к семантическим возмущениям, таким как синонимизация. Дальнейший анализ показывает, что геометрия эмбеддингов (например, угловая равномерность) предоставляет прогностические сигналы для лексической стабильности и указывает на то, что увеличение размера модели, как правило, повышает устойчивость. Эти результаты информируют о будущем проектировании ретриверов с учетом устойчивости и принципиальном бенчмаркинге. Наш код общедоступен по адресу https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.

English

Decoder-only large language models (LLMs) are increasingly replacing BERT-style architectures as the backbone for dense retrieval, achieving substantial performance gains and broad adoption. However, the robustness of these LLM-based retrievers remains underexplored. In this paper, we present the first systematic study of the robustness of state-of-the-art open-source LLM-based dense retrievers from two complementary perspectives: generalizability and stability. For generalizability, we evaluate retrieval effectiveness across four benchmarks spanning 30 datasets, using linear mixed-effects models to estimate marginal mean performance and disentangle intrinsic model capability from dataset heterogeneity. Our analysis reveals that while instruction-tuned models generally excel, those optimized for complex reasoning often suffer a ``specialization tax,'' exhibiting limited generalizability in broader contexts. For stability, we assess model resilience against both unintentional query variations~(e.g., paraphrasing, typos) and malicious adversarial attacks~(e.g., corpus poisoning). We find that LLM-based retrievers show improved robustness against typos and corpus poisoning compared to encoder-only baselines, yet remain vulnerable to semantic perturbations like synonymizing. Further analysis shows that embedding geometry (e.g., angular uniformity) provides predictive signals for lexical stability and suggests that scaling model size generally improves robustness. These findings inform future robustness-aware retriever design and principled benchmarking. Our code is publicly available at https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.

О надежности плотных ретриверов на основе больших языковых моделей: систематический анализ обобщающей способности и устойчивости

On the Robustness of LLM-Based Dense Retrievers: A Systematic Analysis of Generalizability and Stability

Аннотация

Support