Desbloqueando LLMs Comerciais de Caixa-Preta com Prompts Explicitamente Nocivos
Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
August 14, 2025
Autores: Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu
cs.AI
Resumo
A avaliação de ataques de jailbreak é desafiadora quando os prompts não são explicitamente prejudiciais ou não induzem a saídas nocivas. Infelizmente, muitos conjuntos de dados existentes de red teaming contêm esses prompts inadequados. Para avaliar os ataques com precisão, esses conjuntos de dados precisam ser avaliados e limpos quanto à maliciosidade. No entanto, os métodos existentes de detecção de conteúdo malicioso dependem de anotação manual, que é trabalhosa, ou de modelos de linguagem de grande escala (LLMs), que têm precisão inconsistente em tipos de conteúdo prejudicial. Para equilibrar precisão e eficiência, propomos um framework de avaliação híbrido chamado MDH (Detecção de Conteúdo Malicioso baseado em LLMs com Assistência Humana) que combina anotação baseada em LLMs com supervisão humana mínima, e o aplicamos à limpeza de conjuntos de dados e à detecção de respostas jailbroken. Além disso, descobrimos que mensagens bem elaboradas dos desenvolvedores podem aumentar significativamente o sucesso do jailbreak, levando-nos a propor duas novas estratégias: D-Attack, que aproveita a simulação de contexto, e DH-CoT, que incorpora cadeias de pensamento sequestradas. Os códigos, conjuntos de dados, julgamentos e resultados de detecção serão disponibilizados no repositório GitHub: https://github.com/AlienZhang1996/DH-CoT.
English
Evaluating jailbreak attacks is challenging when prompts are not overtly
harmful or fail to induce harmful outputs. Unfortunately, many existing
red-teaming datasets contain such unsuitable prompts. To evaluate attacks
accurately, these datasets need to be assessed and cleaned for maliciousness.
However, existing malicious content detection methods rely on either manual
annotation, which is labor-intensive, or large language models (LLMs), which
have inconsistent accuracy in harmful types. To balance accuracy and
efficiency, we propose a hybrid evaluation framework named MDH (Malicious
content Detection based on LLMs with Human assistance) that combines LLM-based
annotation with minimal human oversight, and apply it to dataset cleaning and
detection of jailbroken responses. Furthermore, we find that well-crafted
developer messages can significantly boost jailbreak success, leading us to
propose two new strategies: D-Attack, which leverages context simulation, and
DH-CoT, which incorporates hijacked chains of thought. The Codes, datasets,
judgements, and detection results will be released in github repository:
https://github.com/AlienZhang1996/DH-CoT.