Évoluer la Méthode, Non les Invites : Synthèse Évolutionnaire des Attaques de Contournement sur les LLMs

papers.abstract

Les cadres de test d'intrusion automatisés pour les modèles de langage de grande taille (LLM) sont devenus de plus en plus sophistiqués, mais ils partagent une limitation fondamentale : leur logique de contournement est confinée à la sélection, la combinaison ou l'affinement de stratégies d'attaque préexistantes. Cela entrave leur créativité et les rend incapables d'inventer de manière autonome de nouveaux mécanismes d'attaque entièrement nouveaux. Pour combler cette lacune, nous présentons EvoSynth, un cadre autonome qui opère un changement de paradigme, passant de la planification d'attaques à la synthèse évolutive de méthodes de contournement. Au lieu d'affiner des invites, EvoSynth utilise un système multi-agents pour concevoir, faire évoluer et exécuter de manière autonome de nouveaux algorithmes d'attaque basés sur du code. Fait crucial, il intègre une boucle d'auto-correction au niveau du code, lui permettant de réécrire itérativement sa propre logique d'attaque en réponse à un échec. Par des expériences approfondies, nous démontrons qu'EvoSynth établit non seulement un nouvel état de l'art en atteignant un taux de réussite d'attaque (ASR) de 85,5 % contre des modèles très robustes comme Claude-Sonnet-4.5, mais génère également des attaques significativement plus diversifiées que celles des méthodes existantes. Nous publions notre cadre pour faciliter les recherches futures dans cette nouvelle direction de la synthèse évolutive des méthodes de contournement. Le code est disponible à l'adresse : https://github.com/dongdongunique/EvoSynth.

English

Automated red teaming frameworks for Large Language Models (LLMs) have become increasingly sophisticated, yet they share a fundamental limitation: their jailbreak logic is confined to selecting, combining, or refining pre-existing attack strategies. This binds their creativity and leaves them unable to autonomously invent entirely new attack mechanisms. To overcome this gap, we introduce EvoSynth, an autonomous framework that shifts the paradigm from attack planning to the evolutionary synthesis of jailbreak methods. Instead of refining prompts, EvoSynth employs a multi-agent system to autonomously engineer, evolve, and execute novel, code-based attack algorithms. Crucially, it features a code-level self-correction loop, allowing it to iteratively rewrite its own attack logic in response to failure. Through extensive experiments, we demonstrate that EvoSynth not only establishes a new state-of-the-art by achieving an 85.5\% Attack Success Rate (ASR) against highly robust models like Claude-Sonnet-4.5, but also generates attacks that are significantly more diverse than those from existing methods. We release our framework to facilitate future research in this new direction of evolutionary synthesis of jailbreak methods. Code is available at: https://github.com/dongdongunique/EvoSynth.

Évoluer la Méthode, Non les Invites : Synthèse Évolutionnaire des Attaques de Contournement sur les LLMs

Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs

papers.abstract

Support