Эволюционировать метод, а не промпты: эволюционный синтез атак взлома на больших языковых моделях

Аннотация

Автоматизированные фреймворки красного командования для больших языковых моделей (LLM) становятся все более сложными, однако они имеют фундаментальное ограничение: их логика взлома ограничена выбором, комбинированием или усовершенствованием существующих атакующих стратегий. Это сковывает их креативность и не позволяет автономно изобретать совершенно новые механизмы атак. Для преодоления этого разрыва мы представляем EvoSynth — автономный фреймворк, который смещает парадигму от планирования атак к эволюционному синтезу методов взлома. Вместо оптимизации промптов EvoSynth использует мульти-агентную систему для автономной разработки, эволюции и выполнения новых атакующих алгоритмов на основе кода. Ключевой особенностью является цикл самокоррекции на уровне кода, позволяющий итеративно переписывать собственную атакующую логику в ответ на неудачу. В ходе масштабных экспериментов мы демонстрируем, что EvoSynth не только устанавливает новый state-of-the-art, достигая 85,5% успешности атак (Attack Success Rate, ASR) против высокоустойчивых моделей, таких как Claude-Sonnet-4.5, но и генерирует атаки, значительно более разнообразные, чем методы, существующие на сегодняшний день. Мы публикуем наш фреймворк для содействия будущим исследованиям в этом новом направлении эволюционного синтеза методов взлома. Код доступен по адресу: https://github.com/dongdongunique/EvoSynth.

English

Automated red teaming frameworks for Large Language Models (LLMs) have become increasingly sophisticated, yet they share a fundamental limitation: their jailbreak logic is confined to selecting, combining, or refining pre-existing attack strategies. This binds their creativity and leaves them unable to autonomously invent entirely new attack mechanisms. To overcome this gap, we introduce EvoSynth, an autonomous framework that shifts the paradigm from attack planning to the evolutionary synthesis of jailbreak methods. Instead of refining prompts, EvoSynth employs a multi-agent system to autonomously engineer, evolve, and execute novel, code-based attack algorithms. Crucially, it features a code-level self-correction loop, allowing it to iteratively rewrite its own attack logic in response to failure. Through extensive experiments, we demonstrate that EvoSynth not only establishes a new state-of-the-art by achieving an 85.5\% Attack Success Rate (ASR) against highly robust models like Claude-Sonnet-4.5, but also generates attacks that are significantly more diverse than those from existing methods. We release our framework to facilitate future research in this new direction of evolutionary synthesis of jailbreak methods. Code is available at: https://github.com/dongdongunique/EvoSynth.

Эволюционировать метод, а не промпты: эволюционный синтез атак взлома на больших языковых моделях

Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs

Аннотация

Support