ChatPaper.aiChatPaper

Le jailbreak avec des invites multiples universelles

Jailbreaking with Universal Multi-Prompts

February 3, 2025
Auteurs: Yu-Ling Hsu, Hsuan Su, Shang-Tse Chen
cs.AI

Résumé

Les grands modèles de langage (LLM) ont connu un développement rapide ces dernières années, révolutionnant diverses applications et améliorant considérablement la commodité et la productivité. Cependant, aux côtés de leurs capacités impressionnantes, des préoccupations éthiques et de nouveaux types d'attaques, tels que le jailbreaking, ont émergé. Alors que la plupart des techniques de déclenchement se concentrent sur l'optimisation des entrées adverses pour des cas individuels, ce qui entraîne des coûts de calcul plus élevés lors du traitement de grands ensembles de données. Moins de recherches se sont penchées sur le cadre plus général de l'entraînement d'un attaquant universel capable de se transférer à des tâches inconnues. Dans cet article, nous présentons JUMP, une méthode basée sur des invites conçue pour jailbreaker les LLM en utilisant des multi-prompts universels. Nous adaptons également notre approche pour la défense, que nous appelons DUMP. Les résultats expérimentaux démontrent que notre méthode d'optimisation des multi-prompts universels surpasse les techniques existantes.
English
Large language models (LLMs) have seen rapid development in recent years, revolutionizing various applications and significantly enhancing convenience and productivity. However, alongside their impressive capabilities, ethical concerns and new types of attacks, such as jailbreaking, have emerged. While most prompting techniques focus on optimizing adversarial inputs for individual cases, resulting in higher computational costs when dealing with large datasets. Less research has addressed the more general setting of training a universal attacker that can transfer to unseen tasks. In this paper, we introduce JUMP, a prompt-based method designed to jailbreak LLMs using universal multi-prompts. We also adapt our approach for defense, which we term DUMP. Experimental results demonstrate that our method for optimizing universal multi-prompts outperforms existing techniques.

Summary

AI-Generated Summary

PDF92February 6, 2025