Sblocco con Prompt Multipli Universali

Abstract

I grandi modelli linguistici (LLM) hanno visto un rapido sviluppo negli ultimi anni, rivoluzionando varie applicazioni e migliorando significativamente la comodità e la produttività. Tuttavia, insieme alle loro impressionanti capacità, sono emerse preoccupazioni etiche e nuovi tipi di attacchi, come il jailbreaking. Mentre la maggior parte delle tecniche di prompting si concentra sull'ottimizzazione degli input avversari per casi individuali, comportando costi computazionali più elevati quando si lavora con grandi set di dati, meno ricerca ha affrontato l'ambiente più generale del training di un attaccante universale in grado di trasferirsi a compiti non visti. In questo articolo, presentiamo JUMP, un metodo basato su prompt progettato per eseguire il jailbreak sui LLM utilizzando multi-prompt universali. Adattiamo inoltre il nostro approccio per la difesa, che chiamiamo DUMP. I risultati sperimentali dimostrano che il nostro metodo per ottimizzare i multi-prompt universali supera le tecniche esistenti.

English

Large language models (LLMs) have seen rapid development in recent years, revolutionizing various applications and significantly enhancing convenience and productivity. However, alongside their impressive capabilities, ethical concerns and new types of attacks, such as jailbreaking, have emerged. While most prompting techniques focus on optimizing adversarial inputs for individual cases, resulting in higher computational costs when dealing with large datasets. Less research has addressed the more general setting of training a universal attacker that can transfer to unseen tasks. In this paper, we introduce JUMP, a prompt-based method designed to jailbreak LLMs using universal multi-prompts. We also adapt our approach for defense, which we term DUMP. Experimental results demonstrate that our method for optimizing universal multi-prompts outperforms existing techniques.

Sblocco con Prompt Multipli Universali

Jailbreaking with Universal Multi-Prompts

Abstract

Support