Evolvere il Metodo, Non i Prompt: Sintesi Evolutiva degli Attacchi Jailbreak sugli LLM

Abstract

I framework di red teaming automatizzato per i Large Language Model (LLM) sono diventati sempre più sofisticati, ma condividono una limitazione fondamentale: la loro logica di jailbreak è confinata alla selezione, combinazione o raffinamento di strategie di attacco preesistenti. Ciò vincola la loro creatività e impedisce loro di inventare autonomamente meccanismi di attacco completamente nuovi. Per superare questa lacuna, introduciamo EvoSynth, un framework autonomo che sposta il paradigma dalla pianificazione degli attacchi alla sintesi evolutiva dei metodi di jailbreak. Invece di perfezionare prompt, EvoSynth utilizza un sistema multi-agente per progettare, evolvere ed eseguire autonomamente nuovi algoritmi di attacco basati su codice. Crucialmente, include un ciclo di autocorrezione a livello di codice, che gli consente di riscrivere iterativamente la propria logica di attacco in risposta ai fallimenti. Attraverso esperimenti estesi, dimostriamo che EvoSynth non solo stabilisce un nuovo stato dell'arte raggiungendo un Attack Success Rate (ASR) dell'85,5% contro modelli altamente robusti come Claude-Sonnet-4.5, ma genera anche attacchi significativamente più diversificati rispetto ai metodi esistenti. Rilasciamo il nostro framework per facilitare la ricerca futura in questa nuova direzione della sintesi evolutiva dei metodi di jailbreak. Il codice è disponibile all'indirizzo: https://github.com/dongdongunique/EvoSynth.

English

Automated red teaming frameworks for Large Language Models (LLMs) have become increasingly sophisticated, yet they share a fundamental limitation: their jailbreak logic is confined to selecting, combining, or refining pre-existing attack strategies. This binds their creativity and leaves them unable to autonomously invent entirely new attack mechanisms. To overcome this gap, we introduce EvoSynth, an autonomous framework that shifts the paradigm from attack planning to the evolutionary synthesis of jailbreak methods. Instead of refining prompts, EvoSynth employs a multi-agent system to autonomously engineer, evolve, and execute novel, code-based attack algorithms. Crucially, it features a code-level self-correction loop, allowing it to iteratively rewrite its own attack logic in response to failure. Through extensive experiments, we demonstrate that EvoSynth not only establishes a new state-of-the-art by achieving an 85.5\% Attack Success Rate (ASR) against highly robust models like Claude-Sonnet-4.5, but also generates attacks that are significantly more diverse than those from existing methods. We release our framework to facilitate future research in this new direction of evolutionary synthesis of jailbreak methods. Code is available at: https://github.com/dongdongunique/EvoSynth.

Evolvere il Metodo, Non i Prompt: Sintesi Evolutiva degli Attacchi Jailbreak sugli LLM

Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs

Abstract

Support