Entwickle die Methode, nicht die Prompts: Evolutionäre Synthese von Jailbreak-Angriffen auf LLMs
Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs
November 16, 2025
papers.authors: Yunhao Chen, Xin Wang, Juncheng Li, Yixu Wang, Jie Li, Yan Teng, Yingchun Wang, Xingjun Ma
cs.AI
papers.abstract
Automatisierte Red-Teaming-Frameworks für Large Language Models (LLMs) sind zunehmend ausgefeilter geworden, weisen jedoch eine grundlegende Einschränkung auf: Ihre Jailbreak-Logik beschränkt sich auf die Auswahl, Kombination oder Verfeinerung bereits bestehender Angriffsstrategien. Dies hemmt ihre Kreativität und macht sie unfähig, völlig neue Angriffsmechanismen autonom zu erfinden. Um diese Lücke zu schließen, stellen wir EvoSynth vor, ein autonomes Framework, das das Paradigma von der Angriffsplanung zur evolutionären Synthese von Jailbreak-Methoden verschiebt. Anstatt Prompts zu verfeinern, setzt EvoSynth ein Multi-Agenten-System ein, um neuartige, codebasierte Angriffsalgorithmen autonom zu entwickeln, weiterzuentwickeln und auszuführen. Entscheidend ist, dass es eine Selbstkorrekturschleife auf Code-Ebene enthält, die es ermöglicht, die eigene Angriffslogik iterativ als Reaktion auf Fehler umzuschreiben. In umfangreichen Experimenten zeigen wir, dass EvoSynth nicht nur einen neuen State-of-the-Art etabliert, indem es eine Angriffserfolgsrate (Attack Success Rate, ASR) von 85,5 % gegen hochrobuste Modelle wie Claude-Sonnet-4.5 erreicht, sondern auch Angriffe generiert, die deutlich vielfältiger sind als die bestehender Methoden. Wir veröffentlichen unser Framework, um zukünftige Forschung in dieser neuen Richtung der evolutionären Synthese von Jailbreak-Methoden zu fördern. Der Code ist verfügbar unter: https://github.com/dongdongunique/EvoSynth.
English
Automated red teaming frameworks for Large Language Models (LLMs) have become increasingly sophisticated, yet they share a fundamental limitation: their jailbreak logic is confined to selecting, combining, or refining pre-existing attack strategies. This binds their creativity and leaves them unable to autonomously invent entirely new attack mechanisms. To overcome this gap, we introduce EvoSynth, an autonomous framework that shifts the paradigm from attack planning to the evolutionary synthesis of jailbreak methods. Instead of refining prompts, EvoSynth employs a multi-agent system to autonomously engineer, evolve, and execute novel, code-based attack algorithms. Crucially, it features a code-level self-correction loop, allowing it to iteratively rewrite its own attack logic in response to failure. Through extensive experiments, we demonstrate that EvoSynth not only establishes a new state-of-the-art by achieving an 85.5\% Attack Success Rate (ASR) against highly robust models like Claude-Sonnet-4.5, but also generates attacks that are significantly more diverse than those from existing methods. We release our framework to facilitate future research in this new direction of evolutionary synthesis of jailbreak methods. Code is available at: https://github.com/dongdongunique/EvoSynth.