Jailbreaking kommerzieller Black-Box-LLMs mit explizit schädlichen Prompts

papers.abstract

Die Bewertung von Jailbreak-Angriffen ist schwierig, wenn Prompts nicht offensichtlich schädlich sind oder keine schädlichen Ausgaben hervorrufen. Leider enthalten viele bestehende Red-Teaming-Datensätze derart ungeeignete Prompts. Um Angriffe genau bewerten zu können, müssen diese Datensätze auf Schädlichkeit überprüft und bereinigt werden. Bisherige Methoden zur Erkennung von schädlichem Inhalt stützen sich entweder auf manuelle Annotation, die arbeitsintensiv ist, oder auf große Sprachmodelle (LLMs), deren Genauigkeit bei schädlichen Inhalten inkonsistent ist. Um Genauigkeit und Effizienz in Einklang zu bringen, schlagen wir ein hybrides Bewertungsframework namens MDH (Malicious Content Detection based on LLMs with Human Assistance) vor, das LLM-basierte Annotation mit minimaler menschlicher Überwachung kombiniert, und wenden es auf die Bereinigung von Datensätzen und die Erkennung von Jailbreak-Antworten an. Darüber hinaus stellen wir fest, dass gut formulierte Entwicklernachrichten den Erfolg von Jailbreaks erheblich steigern können, was uns dazu veranlasst, zwei neue Strategien vorzuschlagen: D-Attack, das Kontextsimulation nutzt, und DH-CoT, das entführte Gedankenketten einbezieht. Die Codes, Datensätze, Bewertungen und Erkennungsergebnisse werden im GitHub-Repository veröffentlicht: https://github.com/AlienZhang1996/DH-CoT.

English

Evaluating jailbreak attacks is challenging when prompts are not overtly harmful or fail to induce harmful outputs. Unfortunately, many existing red-teaming datasets contain such unsuitable prompts. To evaluate attacks accurately, these datasets need to be assessed and cleaned for maliciousness. However, existing malicious content detection methods rely on either manual annotation, which is labor-intensive, or large language models (LLMs), which have inconsistent accuracy in harmful types. To balance accuracy and efficiency, we propose a hybrid evaluation framework named MDH (Malicious content Detection based on LLMs with Human assistance) that combines LLM-based annotation with minimal human oversight, and apply it to dataset cleaning and detection of jailbroken responses. Furthermore, we find that well-crafted developer messages can significantly boost jailbreak success, leading us to propose two new strategies: D-Attack, which leverages context simulation, and DH-CoT, which incorporates hijacked chains of thought. The Codes, datasets, judgements, and detection results will be released in github repository: https://github.com/AlienZhang1996/DH-CoT.

Jailbreaking kommerzieller Black-Box-LLMs mit explizit schädlichen Prompts

Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts

papers.abstract

Support