Het Benutten van Instructie-Volgende Retrievers voor het Ophalen van Kwaadaardige Informatie
Exploiting Instruction-Following Retrievers for Malicious Information Retrieval
March 11, 2025
Auteurs: Parishad BehnamGhader, Nicholas Meade, Siva Reddy
cs.AI
Samenvatting
Instructievolgende retrievers worden veelvuldig naast LLM's toegepast in
praktische toepassingen, maar er is weinig onderzoek gedaan naar de veiligheidsrisico's
rondom hun toenemende zoekcapaciteiten. We bestuderen empirisch het vermogen van
retrievers om kwaadaardige queries te bevredigen, zowel bij direct gebruik als bij
gebruik in een op retrieval-augmented generation gebaseerde opzet. Concreet onderzoeken
we zes toonaangevende retrievers, waaronder NV-Embed en LLM2Vec, en constateren dat
de meeste retrievers bij kwaadaardige verzoeken (voor >50% van de queries) relevante
schadelijke passages kunnen selecteren. Zo selecteert LLM2Vec bijvoorbeeld correcte
passages voor 61,35% van onze kwaadaardige queries. We ontdekken verder een opkomend
risico bij instructievolgende retrievers, waarbij zeer relevante schadelijke informatie
naar voren kan worden gebracht door hun instructievolgende capaciteiten te misbruiken.
Tenslotte tonen we aan dat zelfs veiligheidsafgestemde LLM's, zoals Llama3, kwaadaardige
verzoeken kunnen bevredigen wanneer ze schadelijke opgehaalde passages in-context
krijgen aangeboden. Kortom, onze bevindingen benadrukken de risico's van kwaadwillig
misbruik die gepaard gaan met de toenemende capaciteit van retrievers.
English
Instruction-following retrievers have been widely adopted alongside LLMs in
real-world applications, but little work has investigated the safety risks
surrounding their increasing search capabilities. We empirically study the
ability of retrievers to satisfy malicious queries, both when used directly and
when used in a retrieval augmented generation-based setup. Concretely, we
investigate six leading retrievers, including NV-Embed and LLM2Vec, and find
that given malicious requests, most retrievers can (for >50% of queries) select
relevant harmful passages. For example, LLM2Vec correctly selects passages for
61.35% of our malicious queries. We further uncover an emerging risk with
instruction-following retrievers, where highly relevant harmful information can
be surfaced by exploiting their instruction-following capabilities. Finally, we
show that even safety-aligned LLMs, such as Llama3, can satisfy malicious
requests when provided with harmful retrieved passages in-context. In summary,
our findings underscore the malicious misuse risks associated with increasing
retriever capability.Summary
AI-Generated Summary