Использование поисковых систем, ориентированных на выполнение инструкций, для извлечения вредоносной информации
Exploiting Instruction-Following Retrievers for Malicious Information Retrieval
March 11, 2025
Авторы: Parishad BehnamGhader, Nicholas Meade, Siva Reddy
cs.AI
Аннотация
Инструктивно-ориентированные системы поиска широко используются вместе с крупными языковыми моделями (LLM) в реальных приложениях, однако мало исследований посвящено изучению рисков безопасности, связанных с их растущими поисковыми возможностями. Мы эмпирически изучаем способность таких систем удовлетворять вредоносные запросы как при их прямом использовании, так и в рамках подхода, основанного на генерации с усилением поиска. В частности, мы исследуем шесть ведущих систем поиска, включая NV-Embed и LLM2Vec, и обнаруживаем, что при наличии вредоносных запросов большинство из них могут (для >50% запросов) выбирать соответствующие вредоносные фрагменты. Например, LLM2Vec корректно выбирает фрагменты для 61,35% наших вредоносных запросов. Мы также выявляем новый риск, связанный с инструктивно-ориентированными системами поиска, где высокорелевантная вредоносная информация может быть извлечена за счет использования их способности следовать инструкциям. Наконец, мы показываем, что даже LLM, ориентированные на безопасность, такие как Llama3, могут удовлетворять вредоносные запросы, если им предоставляются вредоносные фрагменты в контексте. В заключение, наши результаты подчеркивают риски злонамеренного использования, связанные с растущими возможностями систем поиска.
English
Instruction-following retrievers have been widely adopted alongside LLMs in
real-world applications, but little work has investigated the safety risks
surrounding their increasing search capabilities. We empirically study the
ability of retrievers to satisfy malicious queries, both when used directly and
when used in a retrieval augmented generation-based setup. Concretely, we
investigate six leading retrievers, including NV-Embed and LLM2Vec, and find
that given malicious requests, most retrievers can (for >50% of queries) select
relevant harmful passages. For example, LLM2Vec correctly selects passages for
61.35% of our malicious queries. We further uncover an emerging risk with
instruction-following retrievers, where highly relevant harmful information can
be surfaced by exploiting their instruction-following capabilities. Finally, we
show that even safety-aligned LLMs, such as Llama3, can satisfy malicious
requests when provided with harmful retrieved passages in-context. In summary,
our findings underscore the malicious misuse risks associated with increasing
retriever capability.Summary
AI-Generated Summary