ChatPaper.aiChatPaper

Evolucionar el Método, No los Prompts: Síntesis Evolutiva de Ataques de Jailbreak a LLMs

Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs

November 16, 2025
Autores: Yunhao Chen, Xin Wang, Juncheng Li, Yixu Wang, Jie Li, Yan Teng, Yingchun Wang, Xingjun Ma
cs.AI

Resumen

Los marcos automatizados de pruebas de penetración para Modelos de Lenguaje a Gran Escala (LLMs) han alcanzado una sofisticación creciente, pero comparten una limitación fundamental: su lógica de *jailbreak* se limita a seleccionar, combinar o refinar estrategias de ataque preexistentes. Esto restringe su creatividad y les impide inventar autónomamente mecanismos de ataque completamente nuevos. Para superar esta brecha, presentamos EvoSynth, un marco autónomo que cambia el paradigma de la planificación de ataques a la síntesis evolutiva de métodos de *jailbreak*. En lugar de refinar *prompts*, EvoSynth emplea un sistema multiagente para diseñar, evolucionar y ejecutar autónomamente algoritmos de ataque novedosos basados en código. Crucialmente, incorpora un bucle de autocorrección a nivel de código, permitiéndole reescribir iterativamente su propia lógica de ataque en respuesta al fracaso. Mediante experimentos exhaustivos, demostramos que EvoSynth no solo establece un nuevo estado del arte al lograr una Tasa de Éxito de Ataque (ASR) del 85.5% contra modelos altamente robustos como Claude-Sonnet-4.5, sino que también genera ataques significativamente más diversos que los de los métodos existentes. Publicamos nuestro marco para facilitar la investigación futura en esta nueva dirección de síntesis evolutiva de métodos de *jailbreak*. El código está disponible en: https://github.com/dongdongunique/EvoSynth.
English
Automated red teaming frameworks for Large Language Models (LLMs) have become increasingly sophisticated, yet they share a fundamental limitation: their jailbreak logic is confined to selecting, combining, or refining pre-existing attack strategies. This binds their creativity and leaves them unable to autonomously invent entirely new attack mechanisms. To overcome this gap, we introduce EvoSynth, an autonomous framework that shifts the paradigm from attack planning to the evolutionary synthesis of jailbreak methods. Instead of refining prompts, EvoSynth employs a multi-agent system to autonomously engineer, evolve, and execute novel, code-based attack algorithms. Crucially, it features a code-level self-correction loop, allowing it to iteratively rewrite its own attack logic in response to failure. Through extensive experiments, we demonstrate that EvoSynth not only establishes a new state-of-the-art by achieving an 85.5\% Attack Success Rate (ASR) against highly robust models like Claude-Sonnet-4.5, but also generates attacks that are significantly more diverse than those from existing methods. We release our framework to facilitate future research in this new direction of evolutionary synthesis of jailbreak methods. Code is available at: https://github.com/dongdongunique/EvoSynth.
PDF362December 1, 2025