Sfruttare i Retrieval di Seguimento delle Istruzioni per il Recupero di Informazioni Maligne

Abstract

I sistemi di recupero basati su istruzioni sono stati ampiamente adottati insieme ai modelli linguistici di grandi dimensioni (LLM) in applicazioni reali, ma poche ricerche hanno indagato i rischi per la sicurezza legati alle loro crescenti capacità di ricerca. Studiamo empiricamente la capacità di questi sistemi di soddisfare query dannose, sia quando utilizzati direttamente sia in contesti di generazione aumentata dal recupero (RAG). Nello specifico, analizziamo sei sistemi di recupero leader, tra cui NV-Embed e LLM2Vec, e scopriamo che, di fronte a richieste malevole, la maggior parte di essi è in grado (per oltre il 50% delle query) di selezionare passaggi rilevanti ma dannosi. Ad esempio, LLM2Vec seleziona correttamente passaggi per il 61,35% delle nostre query dannose. Inoltre, evidenziamo un rischio emergente legato ai sistemi di recupero basati su istruzioni, dove informazioni altamente rilevanti ma dannose possono essere portate alla luce sfruttando le loro capacità di seguire istruzioni. Infine, dimostriamo che anche LLM allineati alla sicurezza, come Llama3, possono soddisfare richieste dannose quando vengono forniti con passaggi recuperati dannosi nel contesto. In sintesi, i nostri risultati sottolineano i rischi di uso improprio associati all'aumento delle capacità dei sistemi di recupero.

English

Instruction-following retrievers have been widely adopted alongside LLMs in real-world applications, but little work has investigated the safety risks surrounding their increasing search capabilities. We empirically study the ability of retrievers to satisfy malicious queries, both when used directly and when used in a retrieval augmented generation-based setup. Concretely, we investigate six leading retrievers, including NV-Embed and LLM2Vec, and find that given malicious requests, most retrievers can (for >50% of queries) select relevant harmful passages. For example, LLM2Vec correctly selects passages for 61.35% of our malicious queries. We further uncover an emerging risk with instruction-following retrievers, where highly relevant harmful information can be surfaced by exploiting their instruction-following capabilities. Finally, we show that even safety-aligned LLMs, such as Llama3, can satisfy malicious requests when provided with harmful retrieved passages in-context. In summary, our findings underscore the malicious misuse risks associated with increasing retriever capability.

Sfruttare i Retrieval di Seguimento delle Istruzioni per il Recupero di Informazioni Maligne

Exploiting Instruction-Following Retrievers for Malicious Information Retrieval

Abstract

Support