Violazione dei modelli linguistici commerciali black-box mediante prompt esplicitamente dannosi
Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
August 14, 2025
Autori: Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu
cs.AI
Abstract
Valutare gli attacchi di jailbreak è complesso quando i prompt non sono apertamente dannosi o non inducono output nocivi. Purtroppo, molti dataset esistenti per il red-teaming contengono prompt inadeguati di questo tipo. Per valutare gli attacchi in modo accurato, questi dataset devono essere analizzati e ripuliti dalla presenza di contenuti malevoli. Tuttavia, i metodi esistenti per il rilevamento di contenuti dannosi si basano su annotazioni manuali, che richiedono un notevole sforzo, o su modelli linguistici di grandi dimensioni (LLM), che presentano un'accuratezza inconsistente nel rilevare tipi specifici di dannosità. Per bilanciare precisione ed efficienza, proponiamo un framework di valutazione ibrido denominato MDH (Rilevamento di Contenuti Dannosi basato su LLM con Assistenza Umana), che combina annotazioni basate su LLM con un minimo controllo umano, e lo applichiamo alla pulizia dei dataset e al rilevamento di risposte jailbroken. Inoltre, abbiamo osservato che messaggi ben strutturati da parte degli sviluppatori possono aumentare significativamente il successo degli attacchi di jailbreak, portandoci a proporre due nuove strategie: D-Attack, che sfrutta la simulazione del contesto, e DH-CoT, che incorpora catene di pensiero dirottate. I codici, i dataset, le valutazioni e i risultati di rilevamento saranno rilasciati nel repository GitHub: https://github.com/AlienZhang1996/DH-CoT.
English
Evaluating jailbreak attacks is challenging when prompts are not overtly
harmful or fail to induce harmful outputs. Unfortunately, many existing
red-teaming datasets contain such unsuitable prompts. To evaluate attacks
accurately, these datasets need to be assessed and cleaned for maliciousness.
However, existing malicious content detection methods rely on either manual
annotation, which is labor-intensive, or large language models (LLMs), which
have inconsistent accuracy in harmful types. To balance accuracy and
efficiency, we propose a hybrid evaluation framework named MDH (Malicious
content Detection based on LLMs with Human assistance) that combines LLM-based
annotation with minimal human oversight, and apply it to dataset cleaning and
detection of jailbroken responses. Furthermore, we find that well-crafted
developer messages can significantly boost jailbreak success, leading us to
propose two new strategies: D-Attack, which leverages context simulation, and
DH-CoT, which incorporates hijacked chains of thought. The Codes, datasets,
judgements, and detection results will be released in github repository:
https://github.com/AlienZhang1996/DH-CoT.