Sobre la Robustez de los Recuperadores Densos Basados en LLM: Un Análisis Sistemático de la Generalizabilidad y la Estabilidad

Resumen

Los grandes modelos de lenguaje (LLM) de solo decodificación están reemplazando progresivamente a las arquitecturas estilo BERT como columna vertebral de la recuperación densa, logrando ganancias sustanciales de rendimiento y una amplia adopción. Sin embargo, la robustez de estos recuperadores basados en LLM sigue estando poco explorada. En este artículo, presentamos el primer estudio sistemático de la robustez de los recuperadores densos basados en LLM de código abierto de vanguardia desde dos perspectivas complementarias: generalizabilidad y estabilidad. Para la generalizabilidad, evaluamos la efectividad de la recuperación en cuatro puntos de referencia que abarcan 30 conjuntos de datos, utilizando modelos lineales de efectos mixtos para estimar el rendimiento medio marginal y desentrañar la capacidad intrínseca del modelo de la heterogeneidad del conjunto de datos. Nuestro análisis revela que, si bien los modelos ajustados por instrucciones generalmente sobresalen, aquellos optimizados para razonamiento complejo a menudo sufren un "impuesto de especialización", exhibiendo una generalizabilidad limitada en contextos más amplios. Para la estabilidad, evaluamos la resiliencia del modelo contra variaciones de consulta no intencionales (por ejemplo, paráfrasis, errores tipográficos) y ataques adversarios maliciosos (por ejemplo, envenenamiento del corpus). Encontramos que los recuperadores basados en LLM muestran una robustez mejorada contra errores tipográficos y envenenamiento del corpus en comparación con los modelos de referencia de solo codificación, pero siguen siendo vulnerables a perturbaciones semánticas como la sinonimización. Un análisis más profundo muestra que la geometría de los embeddings (por ejemplo, uniformidad angular) proporciona señales predictivas para la estabilidad léxica y sugiere que escalar el tamaño del modelo generalmente mejora la robustez. Estos hallazgos informan el futuro diseño de recuperadores conscientes de la robustez y la evaluación comparativa fundamentada. Nuestro código está disponible públicamente en https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.

English

Decoder-only large language models (LLMs) are increasingly replacing BERT-style architectures as the backbone for dense retrieval, achieving substantial performance gains and broad adoption. However, the robustness of these LLM-based retrievers remains underexplored. In this paper, we present the first systematic study of the robustness of state-of-the-art open-source LLM-based dense retrievers from two complementary perspectives: generalizability and stability. For generalizability, we evaluate retrieval effectiveness across four benchmarks spanning 30 datasets, using linear mixed-effects models to estimate marginal mean performance and disentangle intrinsic model capability from dataset heterogeneity. Our analysis reveals that while instruction-tuned models generally excel, those optimized for complex reasoning often suffer a ``specialization tax,'' exhibiting limited generalizability in broader contexts. For stability, we assess model resilience against both unintentional query variations~(e.g., paraphrasing, typos) and malicious adversarial attacks~(e.g., corpus poisoning). We find that LLM-based retrievers show improved robustness against typos and corpus poisoning compared to encoder-only baselines, yet remain vulnerable to semantic perturbations like synonymizing. Further analysis shows that embedding geometry (e.g., angular uniformity) provides predictive signals for lexical stability and suggests that scaling model size generally improves robustness. These findings inform future robustness-aware retriever design and principled benchmarking. Our code is publicly available at https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.

Sobre la Robustez de los Recuperadores Densos Basados en LLM: Un Análisis Sistemático de la Generalizabilidad y la Estabilidad

On the Robustness of LLM-Based Dense Retrievers: A Systematic Analysis of Generalizability and Stability

Resumen

Support