Jailbreaking kommerzieller Black-Box-LLMs mit explizit schädlichen Prompts
Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
August 14, 2025
papers.authors: Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu
cs.AI
papers.abstract
Die Bewertung von Jailbreak-Angriffen ist schwierig, wenn Prompts nicht offensichtlich schädlich sind oder keine schädlichen Ausgaben hervorrufen. Leider enthalten viele bestehende Red-Teaming-Datensätze derart ungeeignete Prompts. Um Angriffe genau bewerten zu können, müssen diese Datensätze auf Schädlichkeit überprüft und bereinigt werden. Bisherige Methoden zur Erkennung von schädlichem Inhalt stützen sich entweder auf manuelle Annotation, die arbeitsintensiv ist, oder auf große Sprachmodelle (LLMs), deren Genauigkeit bei schädlichen Inhalten inkonsistent ist. Um Genauigkeit und Effizienz in Einklang zu bringen, schlagen wir ein hybrides Bewertungsframework namens MDH (Malicious Content Detection based on LLMs with Human Assistance) vor, das LLM-basierte Annotation mit minimaler menschlicher Überwachung kombiniert, und wenden es auf die Bereinigung von Datensätzen und die Erkennung von Jailbreak-Antworten an. Darüber hinaus stellen wir fest, dass gut formulierte Entwicklernachrichten den Erfolg von Jailbreaks erheblich steigern können, was uns dazu veranlasst, zwei neue Strategien vorzuschlagen: D-Attack, das Kontextsimulation nutzt, und DH-CoT, das entführte Gedankenketten einbezieht. Die Codes, Datensätze, Bewertungen und Erkennungsergebnisse werden im GitHub-Repository veröffentlicht: https://github.com/AlienZhang1996/DH-CoT.
English
Evaluating jailbreak attacks is challenging when prompts are not overtly
harmful or fail to induce harmful outputs. Unfortunately, many existing
red-teaming datasets contain such unsuitable prompts. To evaluate attacks
accurately, these datasets need to be assessed and cleaned for maliciousness.
However, existing malicious content detection methods rely on either manual
annotation, which is labor-intensive, or large language models (LLMs), which
have inconsistent accuracy in harmful types. To balance accuracy and
efficiency, we propose a hybrid evaluation framework named MDH (Malicious
content Detection based on LLMs with Human assistance) that combines LLM-based
annotation with minimal human oversight, and apply it to dataset cleaning and
detection of jailbroken responses. Furthermore, we find that well-crafted
developer messages can significantly boost jailbreak success, leading us to
propose two new strategies: D-Attack, which leverages context simulation, and
DH-CoT, which incorporates hijacked chains of thought. The Codes, datasets,
judgements, and detection results will be released in github repository:
https://github.com/AlienZhang1996/DH-CoT.