Взлом коммерческих черных ящиков LLM с использованием явно вредоносных запросов
Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
August 14, 2025
Авторы: Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu
cs.AI
Аннотация
Оценка атак jailbreak представляет сложность, когда запросы не являются явно вредоносными или не приводят к генерации вредоносных ответов. К сожалению, многие существующие наборы данных для red-teaming содержат такие неподходящие запросы. Для точной оценки атак эти наборы данных необходимо проверять и очищать от вредоносного содержимого. Однако существующие методы обнаружения вредоносного контента полагаются либо на ручную аннотацию, что требует значительных трудозатрат, либо на крупные языковые модели (LLM), точность которых в выявлении вредоносных типов нестабильна. Для баланса между точностью и эффективностью мы предлагаем гибридную систему оценки под названием MDH (Обнаружение вредоносного контента на основе LLM с участием человека), которая сочетает аннотацию на основе LLM с минимальным участием человека, и применяем её для очистки наборов данных и обнаружения jailbroken-ответов. Кроме того, мы обнаружили, что тщательно составленные сообщения разработчиков могут значительно повысить успешность jailbreak, что побудило нас предложить две новые стратегии: D-Attack, использующую симуляцию контекста, и DH-CoT, которая включает в себя захваченные цепочки рассуждений. Коды, наборы данных, оценки и результаты обнаружения будут опубликованы в репозитории GitHub: https://github.com/AlienZhang1996/DH-CoT.
English
Evaluating jailbreak attacks is challenging when prompts are not overtly
harmful or fail to induce harmful outputs. Unfortunately, many existing
red-teaming datasets contain such unsuitable prompts. To evaluate attacks
accurately, these datasets need to be assessed and cleaned for maliciousness.
However, existing malicious content detection methods rely on either manual
annotation, which is labor-intensive, or large language models (LLMs), which
have inconsistent accuracy in harmful types. To balance accuracy and
efficiency, we propose a hybrid evaluation framework named MDH (Malicious
content Detection based on LLMs with Human assistance) that combines LLM-based
annotation with minimal human oversight, and apply it to dataset cleaning and
detection of jailbroken responses. Furthermore, we find that well-crafted
developer messages can significantly boost jailbreak success, leading us to
propose two new strategies: D-Attack, which leverages context simulation, and
DH-CoT, which incorporates hijacked chains of thought. The Codes, datasets,
judgements, and detection results will be released in github repository:
https://github.com/AlienZhang1996/DH-CoT.