Desbloqueio com Múltiplos Estímulos Universais

Resumo

Os modelos de linguagem de grande escala (LLMs) têm visto um rápido desenvolvimento nos últimos anos, revolucionando várias aplicações e aumentando significativamente a conveniência e produtividade. No entanto, juntamente com suas impressionantes capacidades, surgiram preocupações éticas e novos tipos de ataques, como o jailbreaking. Enquanto a maioria das técnicas de gatilho se concentra na otimização de entradas adversárias para casos individuais, resultando em custos computacionais mais elevados ao lidar com grandes conjuntos de dados, menos pesquisas abordaram o cenário mais geral de treinar um atacante universal que possa ser transferido para tarefas não vistas. Neste artigo, apresentamos JUMP, um método baseado em gatilho projetado para realizar jailbreak em LLMs usando multi-gatilhos universais. Também adaptamos nossa abordagem para defesa, que denominamos DUMP. Resultados experimentais demonstram que nosso método de otimização de multi-gatilhos universais supera as técnicas existentes.

English

Large language models (LLMs) have seen rapid development in recent years, revolutionizing various applications and significantly enhancing convenience and productivity. However, alongside their impressive capabilities, ethical concerns and new types of attacks, such as jailbreaking, have emerged. While most prompting techniques focus on optimizing adversarial inputs for individual cases, resulting in higher computational costs when dealing with large datasets. Less research has addressed the more general setting of training a universal attacker that can transfer to unseen tasks. In this paper, we introduce JUMP, a prompt-based method designed to jailbreak LLMs using universal multi-prompts. We also adapt our approach for defense, which we term DUMP. Experimental results demonstrate that our method for optimizing universal multi-prompts outperforms existing techniques.

Desbloqueio com Múltiplos Estímulos Universais

Jailbreaking with Universal Multi-Prompts

Resumo

Support