Explorando Recuperadores de Informação Baseados em Instruções para a Recuperação de Informações Maliciosas
Exploiting Instruction-Following Retrievers for Malicious Information Retrieval
March 11, 2025
Autores: Parishad BehnamGhader, Nicholas Meade, Siva Reddy
cs.AI
Resumo
Recuperadores que seguem instruções têm sido amplamente adotados juntamente com LLMs em aplicações do mundo real, mas poucos trabalhos investigaram os riscos de segurança relacionados ao aumento de suas capacidades de busca. Estudamos empiricamente a capacidade desses recuperadores de atender a consultas maliciosas, tanto quando usados diretamente quanto em uma configuração baseada em geração aumentada por recuperação. Concretamente, investigamos seis recuperadores líderes, incluindo NV-Embed e LLM2Vec, e descobrimos que, diante de solicitações maliciosas, a maioria dos recuperadores consegue (para >50% das consultas) selecionar passagens relevantes e prejudiciais. Por exemplo, o LLM2Vec seleciona corretamente passagens para 61,35% de nossas consultas maliciosas. Além disso, revelamos um risco emergente com recuperadores que seguem instruções, onde informações altamente relevantes e prejudiciais podem ser trazidas à tona explorando suas capacidades de seguir instruções. Por fim, mostramos que mesmo LLMs alinhados com segurança, como o Llama3, podem atender a solicitações maliciosas quando fornecidas com passagens recuperadas prejudiciais no contexto. Em resumo, nossas descobertas destacam os riscos de uso malicioso associados ao aumento da capacidade dos recuperadores.
English
Instruction-following retrievers have been widely adopted alongside LLMs in
real-world applications, but little work has investigated the safety risks
surrounding their increasing search capabilities. We empirically study the
ability of retrievers to satisfy malicious queries, both when used directly and
when used in a retrieval augmented generation-based setup. Concretely, we
investigate six leading retrievers, including NV-Embed and LLM2Vec, and find
that given malicious requests, most retrievers can (for >50% of queries) select
relevant harmful passages. For example, LLM2Vec correctly selects passages for
61.35% of our malicious queries. We further uncover an emerging risk with
instruction-following retrievers, where highly relevant harmful information can
be surfaced by exploiting their instruction-following capabilities. Finally, we
show that even safety-aligned LLMs, such as Llama3, can satisfy malicious
requests when provided with harmful retrieved passages in-context. In summary,
our findings underscore the malicious misuse risks associated with increasing
retriever capability.Summary
AI-Generated Summary