Explotación de Recuperadores de Información Basados en Instrucciones para la Obtención de Información Maliciosa
Exploiting Instruction-Following Retrievers for Malicious Information Retrieval
March 11, 2025
Autores: Parishad BehnamGhader, Nicholas Meade, Siva Reddy
cs.AI
Resumen
Los recuperadores que siguen instrucciones han sido ampliamente adoptados junto con los LLMs en aplicaciones del mundo real, pero se ha investigado poco sobre los riesgos de seguridad relacionados con sus capacidades de búsqueda cada vez mayores. Estudiamos empíricamente la capacidad de los recuperadores para satisfacer consultas maliciosas, tanto cuando se usan directamente como cuando se utilizan en una configuración basada en generación aumentada por recuperación. Concretamente, investigamos seis recuperadores líderes, incluyendo NV-Embed y LLM2Vec, y encontramos que, ante solicitudes maliciosas, la mayoría de los recuperadores pueden (para >50% de las consultas) seleccionar pasajes relevantes y dañinos. Por ejemplo, LLM2Vec selecciona correctamente pasajes para el 61.35% de nuestras consultas maliciosas. Además, descubrimos un riesgo emergente con los recuperadores que siguen instrucciones, donde información altamente relevante y dañina puede ser resaltada al explotar sus capacidades de seguimiento de instrucciones. Finalmente, demostramos que incluso LLMs alineados con la seguridad, como Llama3, pueden satisfacer solicitudes maliciosas cuando se les proporcionan pasajes recuperados dañinos en contexto. En resumen, nuestros hallazgos subrayan los riesgos de uso malicioso asociados con el aumento de la capacidad de los recuperadores.
English
Instruction-following retrievers have been widely adopted alongside LLMs in
real-world applications, but little work has investigated the safety risks
surrounding their increasing search capabilities. We empirically study the
ability of retrievers to satisfy malicious queries, both when used directly and
when used in a retrieval augmented generation-based setup. Concretely, we
investigate six leading retrievers, including NV-Embed and LLM2Vec, and find
that given malicious requests, most retrievers can (for >50% of queries) select
relevant harmful passages. For example, LLM2Vec correctly selects passages for
61.35% of our malicious queries. We further uncover an emerging risk with
instruction-following retrievers, where highly relevant harmful information can
be surfaced by exploiting their instruction-following capabilities. Finally, we
show that even safety-aligned LLMs, such as Llama3, can satisfy malicious
requests when provided with harmful retrieved passages in-context. In summary,
our findings underscore the malicious misuse risks associated with increasing
retriever capability.