Explorando Recuperadores de Informação Baseados em Instruções para a Recuperação de Informações Maliciosas

Resumo

Recuperadores que seguem instruções têm sido amplamente adotados juntamente com LLMs em aplicações do mundo real, mas poucos trabalhos investigaram os riscos de segurança relacionados ao aumento de suas capacidades de busca. Estudamos empiricamente a capacidade desses recuperadores de atender a consultas maliciosas, tanto quando usados diretamente quanto em uma configuração baseada em geração aumentada por recuperação. Concretamente, investigamos seis recuperadores líderes, incluindo NV-Embed e LLM2Vec, e descobrimos que, diante de solicitações maliciosas, a maioria dos recuperadores consegue (para >50% das consultas) selecionar passagens relevantes e prejudiciais. Por exemplo, o LLM2Vec seleciona corretamente passagens para 61,35% de nossas consultas maliciosas. Além disso, revelamos um risco emergente com recuperadores que seguem instruções, onde informações altamente relevantes e prejudiciais podem ser trazidas à tona explorando suas capacidades de seguir instruções. Por fim, mostramos que mesmo LLMs alinhados com segurança, como o Llama3, podem atender a solicitações maliciosas quando fornecidas com passagens recuperadas prejudiciais no contexto. Em resumo, nossas descobertas destacam os riscos de uso malicioso associados ao aumento da capacidade dos recuperadores.

English

Instruction-following retrievers have been widely adopted alongside LLMs in real-world applications, but little work has investigated the safety risks surrounding their increasing search capabilities. We empirically study the ability of retrievers to satisfy malicious queries, both when used directly and when used in a retrieval augmented generation-based setup. Concretely, we investigate six leading retrievers, including NV-Embed and LLM2Vec, and find that given malicious requests, most retrievers can (for >50% of queries) select relevant harmful passages. For example, LLM2Vec correctly selects passages for 61.35% of our malicious queries. We further uncover an emerging risk with instruction-following retrievers, where highly relevant harmful information can be surfaced by exploiting their instruction-following capabilities. Finally, we show that even safety-aligned LLMs, such as Llama3, can satisfy malicious requests when provided with harmful retrieved passages in-context. In summary, our findings underscore the malicious misuse risks associated with increasing retriever capability.

Explorando Recuperadores de Informação Baseados em Instruções para a Recuperação de Informações Maliciosas

Exploiting Instruction-Following Retrievers for Malicious Information Retrieval

Resumo

Support