ChatPaper.aiChatPaper

Exploitation des récupérateurs d'instructions pour l'obtention d'informations malveillantes

Exploiting Instruction-Following Retrievers for Malicious Information Retrieval

March 11, 2025
Auteurs: Parishad BehnamGhader, Nicholas Meade, Siva Reddy
cs.AI

Résumé

Les systèmes de recherche guidés par instructions ont été largement adoptés aux côtés des LLM dans des applications réelles, mais peu de travaux ont exploré les risques de sécurité liés à leurs capacités de recherche croissantes. Nous étudions empiriquement la capacité de ces systèmes à répondre à des requêtes malveillantes, qu'ils soient utilisés directement ou dans un cadre de génération augmentée par recherche. Concrètement, nous examinons six systèmes de recherche de premier plan, dont NV-Embed et LLM2Vec, et constatons que, face à des demandes malveillantes, la plupart d'entre eux peuvent (pour >50 % des requêtes) sélectionner des passages pertinents mais nuisibles. Par exemple, LLM2Vec sélectionne correctement des passages pour 61,35 % de nos requêtes malveillantes. Nous mettons également en lumière un risque émergent avec les systèmes de recherche guidés par instructions, où des informations hautement pertinentes mais nuisibles peuvent être révélées en exploitant leurs capacités à suivre des instructions. Enfin, nous montrons que même des LLM alignés sur la sécurité, comme Llama3, peuvent satisfaire des demandes malveillantes lorsqu'ils reçoivent des passages nuisibles récupérés en contexte. En résumé, nos résultats soulignent les risques de mauvaise utilisation associés à l'amélioration des capacités des systèmes de recherche.
English
Instruction-following retrievers have been widely adopted alongside LLMs in real-world applications, but little work has investigated the safety risks surrounding their increasing search capabilities. We empirically study the ability of retrievers to satisfy malicious queries, both when used directly and when used in a retrieval augmented generation-based setup. Concretely, we investigate six leading retrievers, including NV-Embed and LLM2Vec, and find that given malicious requests, most retrievers can (for >50% of queries) select relevant harmful passages. For example, LLM2Vec correctly selects passages for 61.35% of our malicious queries. We further uncover an emerging risk with instruction-following retrievers, where highly relevant harmful information can be surfaced by exploiting their instruction-following capabilities. Finally, we show that even safety-aligned LLMs, such as Llama3, can satisfy malicious requests when provided with harmful retrieved passages in-context. In summary, our findings underscore the malicious misuse risks associated with increasing retriever capability.
PDF162March 12, 2025