ChatPaper.aiChatPaper

手法を進化させよ、プロンプトではなく:LLMに対するジェイルブレイク攻撃の進化的合成

Evolve the Method, Not the Prompts: Evolutionary Synthesis of Jailbreak Attacks on LLMs

November 16, 2025
著者: Yunhao Chen, Xin Wang, Juncheng Li, Yixu Wang, Jie Li, Yan Teng, Yingchun Wang, Xingjun Ma
cs.AI

要旨

大規模言語モデル(LLM)向けの自動レッドチーミングフレームワークは高度化が進んでいるが、根本的な限界を共有している。既存の攻撃戦略を選択・結合・改良するというジャイブレック(脱獄)ロジックに閉じ込められており、自律的に全く新しい攻撃手法を創出できない。この課題を克服するため、我々は攻撃計画から進化的合成へのパラダイム転換を図る自律フレームワーク「EvoSynth」を提案する。EvoSynthはプロンプトの改良ではなく、マルチエージェントシステムを用いてコードベースの新しい攻撃アルゴリズムを自律的に設計・進化・実行する。特に重要なのはコードレベルでの自己修正ループであり、失敗に応じて攻撃ロジックを反復的に書き換えることができる。大規模な実験を通じて、EvoSynthがClaude-Sonnet-4.5のような堅牢なモデルに対して85.5%という新たな最高水準の攻撃成功率(ASR)を達成するだけでなく、既存手法よりもはるかに多様な攻撃を生成することを実証した。本フレームワークを公開し、ジャイブレック手法の進化的合成という新たな研究方向の促進を図る。コードは以下で公開されている:https://github.com/dongdongunique/EvoSynth
English
Automated red teaming frameworks for Large Language Models (LLMs) have become increasingly sophisticated, yet they share a fundamental limitation: their jailbreak logic is confined to selecting, combining, or refining pre-existing attack strategies. This binds their creativity and leaves them unable to autonomously invent entirely new attack mechanisms. To overcome this gap, we introduce EvoSynth, an autonomous framework that shifts the paradigm from attack planning to the evolutionary synthesis of jailbreak methods. Instead of refining prompts, EvoSynth employs a multi-agent system to autonomously engineer, evolve, and execute novel, code-based attack algorithms. Crucially, it features a code-level self-correction loop, allowing it to iteratively rewrite its own attack logic in response to failure. Through extensive experiments, we demonstrate that EvoSynth not only establishes a new state-of-the-art by achieving an 85.5\% Attack Success Rate (ASR) against highly robust models like Claude-Sonnet-4.5, but also generates attacks that are significantly more diverse than those from existing methods. We release our framework to facilitate future research in this new direction of evolutionary synthesis of jailbreak methods. Code is available at: https://github.com/dongdongunique/EvoSynth.
PDF362December 1, 2025