Sfruttare i Retrieval di Seguimento delle Istruzioni per il Recupero di Informazioni Maligne
Exploiting Instruction-Following Retrievers for Malicious Information Retrieval
March 11, 2025
Autori: Parishad BehnamGhader, Nicholas Meade, Siva Reddy
cs.AI
Abstract
I sistemi di recupero basati su istruzioni sono stati ampiamente adottati insieme ai modelli linguistici di grandi dimensioni (LLM) in applicazioni reali, ma poche ricerche hanno indagato i rischi per la sicurezza legati alle loro crescenti capacità di ricerca. Studiamo empiricamente la capacità di questi sistemi di soddisfare query dannose, sia quando utilizzati direttamente sia in contesti di generazione aumentata dal recupero (RAG). Nello specifico, analizziamo sei sistemi di recupero leader, tra cui NV-Embed e LLM2Vec, e scopriamo che, di fronte a richieste malevole, la maggior parte di essi è in grado (per oltre il 50% delle query) di selezionare passaggi rilevanti ma dannosi. Ad esempio, LLM2Vec seleziona correttamente passaggi per il 61,35% delle nostre query dannose. Inoltre, evidenziamo un rischio emergente legato ai sistemi di recupero basati su istruzioni, dove informazioni altamente rilevanti ma dannose possono essere portate alla luce sfruttando le loro capacità di seguire istruzioni. Infine, dimostriamo che anche LLM allineati alla sicurezza, come Llama3, possono soddisfare richieste dannose quando vengono forniti con passaggi recuperati dannosi nel contesto. In sintesi, i nostri risultati sottolineano i rischi di uso improprio associati all'aumento delle capacità dei sistemi di recupero.
English
Instruction-following retrievers have been widely adopted alongside LLMs in
real-world applications, but little work has investigated the safety risks
surrounding their increasing search capabilities. We empirically study the
ability of retrievers to satisfy malicious queries, both when used directly and
when used in a retrieval augmented generation-based setup. Concretely, we
investigate six leading retrievers, including NV-Embed and LLM2Vec, and find
that given malicious requests, most retrievers can (for >50% of queries) select
relevant harmful passages. For example, LLM2Vec correctly selects passages for
61.35% of our malicious queries. We further uncover an emerging risk with
instruction-following retrievers, where highly relevant harmful information can
be surfaced by exploiting their instruction-following capabilities. Finally, we
show that even safety-aligned LLMs, such as Llama3, can satisfy malicious
requests when provided with harmful retrieved passages in-context. In summary,
our findings underscore the malicious misuse risks associated with increasing
retriever capability.