Evolueer de Methode, Niet de Prompts: Evolutionaire Synthese van Jailbreak-aanvallen op LLM's
Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs
November 16, 2025
Auteurs: Yunhao Chen, Xin Wang, Juncheng Li, Yixu Wang, Jie Li, Yan Teng, Yingchun Wang, Xingjun Ma
cs.AI
Samenvatting
Geautomatiseerde red teaming-frameworks voor Large Language Models (LLM's) zijn steeds geavanceerder geworden, maar delen een fundamentele beperking: hun jailbreak-logica is beperkt tot het selecteren, combineren of verfijnen van bestaande aanvalsstrategieën. Dit beknot hun creativiteit en maakt hen niet in staat om volledig nieuwe aanvalsmechanismen autonoom uit te vinden. Om deze kloof te overbruggen, introduceren wij EvoSynth, een autonoom framework dat het paradigma verschuift van aanvalsplanning naar de evolutionaire synthese van jailbreak-methoden. In plaats van prompts te verfijnen, gebruikt EvoSynth een multi-agent systeem om autonoom nieuwe, op code gebaseerde aanvalsalgoritmes te ontwerpen, evolueren en uit te voeren. Cruciaal is dat het beschikt over een zelfcorrectielus op coderingsniveau, waardoor het zijn eigen aanvalslogica iteratief kan herschrijven als reactie op falen. Door middel van uitgebreide experimenten tonen we aan dat EvoSynth niet alleen een nieuwe state-of-the-art vestigt door een Attack Success Rate (ASR) van 85,5% te behalen tegen zeer robuuste modellen zoals Claude-Sonnet-4.5, maar ook aanvallen genereert die aanzienlijk diverser zijn dan die van bestaande methoden. Wij geven ons framework vrij om toekomstig onderzoek in deze nieuwe richting van evolutionaire synthese van jailbreak-methoden te vergemakkelijken. Code is beschikbaar op: https://github.com/dongdongunique/EvoSynth.
English
Automated red teaming frameworks for Large Language Models (LLMs) have become increasingly sophisticated, yet they share a fundamental limitation: their jailbreak logic is confined to selecting, combining, or refining pre-existing attack strategies. This binds their creativity and leaves them unable to autonomously invent entirely new attack mechanisms. To overcome this gap, we introduce EvoSynth, an autonomous framework that shifts the paradigm from attack planning to the evolutionary synthesis of jailbreak methods. Instead of refining prompts, EvoSynth employs a multi-agent system to autonomously engineer, evolve, and execute novel, code-based attack algorithms. Crucially, it features a code-level self-correction loop, allowing it to iteratively rewrite its own attack logic in response to failure. Through extensive experiments, we demonstrate that EvoSynth not only establishes a new state-of-the-art by achieving an 85.5\% Attack Success Rate (ASR) against highly robust models like Claude-Sonnet-4.5, but also generates attacks that are significantly more diverse than those from existing methods. We release our framework to facilitate future research in this new direction of evolutionary synthesis of jailbreak methods. Code is available at: https://github.com/dongdongunique/EvoSynth.