ChatPaper.aiChatPaper

Contournement des LLM commerciaux en boîte noire à l'aide de prompts explicitement nuisibles

Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts

August 14, 2025
papers.authors: Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu
cs.AI

papers.abstract

L'évaluation des attaques de type "jailbreak" est complexe lorsque les invites ne sont pas explicitement nuisibles ou ne parviennent pas à générer des sorties préjudiciables. Malheureusement, de nombreux ensembles de données existants pour les tests d'intrusion (red-teaming) contiennent de telles invites inadaptées. Pour évaluer ces attaques avec précision, ces ensembles de données doivent être examinés et nettoyés pour détecter les contenus malveillants. Cependant, les méthodes actuelles de détection de contenu malveillant reposent soit sur une annotation manuelle, qui est laborieuse, soit sur des modèles de langage à grande échelle (LLMs), dont la précision est inconstante pour les types de contenus nuisibles. Pour concilier précision et efficacité, nous proposons un cadre d'évaluation hybride nommé MDH (Détection de contenu malveillant basée sur les LLMs avec assistance humaine), qui combine l'annotation par LLM avec une supervision humaine minimale, et l'appliquons au nettoyage des ensembles de données et à la détection des réponses jailbroken. Par ailleurs, nous constatons que des messages bien conçus par les développeurs peuvent considérablement augmenter le succès des jailbreaks, ce qui nous amène à proposer deux nouvelles stratégies : D-Attack, qui exploite la simulation de contexte, et DH-CoT, qui intègre des chaînes de pensée détournées. Les codes, ensembles de données, jugements et résultats de détection seront publiés dans le dépôt GitHub : https://github.com/AlienZhang1996/DH-CoT.
English
Evaluating jailbreak attacks is challenging when prompts are not overtly harmful or fail to induce harmful outputs. Unfortunately, many existing red-teaming datasets contain such unsuitable prompts. To evaluate attacks accurately, these datasets need to be assessed and cleaned for maliciousness. However, existing malicious content detection methods rely on either manual annotation, which is labor-intensive, or large language models (LLMs), which have inconsistent accuracy in harmful types. To balance accuracy and efficiency, we propose a hybrid evaluation framework named MDH (Malicious content Detection based on LLMs with Human assistance) that combines LLM-based annotation with minimal human oversight, and apply it to dataset cleaning and detection of jailbroken responses. Furthermore, we find that well-crafted developer messages can significantly boost jailbreak success, leading us to propose two new strategies: D-Attack, which leverages context simulation, and DH-CoT, which incorporates hijacked chains of thought. The Codes, datasets, judgements, and detection results will be released in github repository: https://github.com/AlienZhang1996/DH-CoT.
PDF02August 25, 2025