ChatPaper.aiChatPaper

Het Benutten van Instructie-Volgende Retrievers voor het Ophalen van Kwaadaardige Informatie

Exploiting Instruction-Following Retrievers for Malicious Information Retrieval

March 11, 2025
Auteurs: Parishad BehnamGhader, Nicholas Meade, Siva Reddy
cs.AI

Samenvatting

Instructievolgende retrievers worden veelvuldig naast LLM's toegepast in praktische toepassingen, maar er is weinig onderzoek gedaan naar de veiligheidsrisico's rondom hun toenemende zoekcapaciteiten. We bestuderen empirisch het vermogen van retrievers om kwaadaardige queries te bevredigen, zowel bij direct gebruik als bij gebruik in een op retrieval-augmented generation gebaseerde opzet. Concreet onderzoeken we zes toonaangevende retrievers, waaronder NV-Embed en LLM2Vec, en constateren dat de meeste retrievers bij kwaadaardige verzoeken (voor >50% van de queries) relevante schadelijke passages kunnen selecteren. Zo selecteert LLM2Vec bijvoorbeeld correcte passages voor 61,35% van onze kwaadaardige queries. We ontdekken verder een opkomend risico bij instructievolgende retrievers, waarbij zeer relevante schadelijke informatie naar voren kan worden gebracht door hun instructievolgende capaciteiten te misbruiken. Tenslotte tonen we aan dat zelfs veiligheidsafgestemde LLM's, zoals Llama3, kwaadaardige verzoeken kunnen bevredigen wanneer ze schadelijke opgehaalde passages in-context krijgen aangeboden. Kortom, onze bevindingen benadrukken de risico's van kwaadwillig misbruik die gepaard gaan met de toenemende capaciteit van retrievers.
English
Instruction-following retrievers have been widely adopted alongside LLMs in real-world applications, but little work has investigated the safety risks surrounding their increasing search capabilities. We empirically study the ability of retrievers to satisfy malicious queries, both when used directly and when used in a retrieval augmented generation-based setup. Concretely, we investigate six leading retrievers, including NV-Embed and LLM2Vec, and find that given malicious requests, most retrievers can (for >50% of queries) select relevant harmful passages. For example, LLM2Vec correctly selects passages for 61.35% of our malicious queries. We further uncover an emerging risk with instruction-following retrievers, where highly relevant harmful information can be surfaced by exploiting their instruction-following capabilities. Finally, we show that even safety-aligned LLMs, such as Llama3, can satisfy malicious requests when provided with harmful retrieved passages in-context. In summary, our findings underscore the malicious misuse risks associated with increasing retriever capability.

Summary

AI-Generated Summary

PDF162March 12, 2025