Jailbreaken van commerciële black-box LLM's met expliciet schadelijke prompts
Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
August 14, 2025
Auteurs: Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu
cs.AI
Samenvatting
Het evalueren van jailbreak-aanvallen is uitdagend wanneer prompts niet expliciet schadelijk zijn of geen schadelijke outputs veroorzaken. Helaas bevatten veel bestaande red-teaming-datasets dergelijke ongeschikte prompts. Om aanvallen nauwkeurig te evalueren, moeten deze datasets worden beoordeeld en opgeruimd op kwaadaardigheid. Bestaande methoden voor het detecteren van kwaadaardige inhoud zijn echter afhankelijk van handmatige annotatie, wat arbeidsintensief is, of van grote taalmodelen (LLM's), die inconsistente nauwkeurigheid hebben bij het herkennen van schadelijke typen. Om een balans te vinden tussen nauwkeurigheid en efficiëntie, stellen we een hybride evaluatieraamwerk voor genaamd MDH (Malicious content Detection based on LLMs with Human assistance) dat LLM-gebaseerde annotatie combineert met minimale menselijke controle, en passen we dit toe op het opruimen van datasets en het detecteren van jailbroken reacties. Bovendien ontdekken we dat goed geformuleerde ontwikkelaarsberichten het succes van jailbreaks aanzienlijk kunnen vergroten, wat ons ertoe brengt twee nieuwe strategieën voor te stellen: D-Attack, dat gebruikmaakt van contextsimulatie, en DH-CoT, dat gekaapte gedachteketens incorporeert. De codes, datasets, beoordelingen en detectieresultaten zullen worden vrijgegeven in de GitHub-repository: https://github.com/AlienZhang1996/DH-CoT.
English
Evaluating jailbreak attacks is challenging when prompts are not overtly
harmful or fail to induce harmful outputs. Unfortunately, many existing
red-teaming datasets contain such unsuitable prompts. To evaluate attacks
accurately, these datasets need to be assessed and cleaned for maliciousness.
However, existing malicious content detection methods rely on either manual
annotation, which is labor-intensive, or large language models (LLMs), which
have inconsistent accuracy in harmful types. To balance accuracy and
efficiency, we propose a hybrid evaluation framework named MDH (Malicious
content Detection based on LLMs with Human assistance) that combines LLM-based
annotation with minimal human oversight, and apply it to dataset cleaning and
detection of jailbroken responses. Furthermore, we find that well-crafted
developer messages can significantly boost jailbreak success, leading us to
propose two new strategies: D-Attack, which leverages context simulation, and
DH-CoT, which incorporates hijacked chains of thought. The Codes, datasets,
judgements, and detection results will be released in github repository:
https://github.com/AlienZhang1996/DH-CoT.