Desbloqueo de modelos de lenguaje de caja negra comerciales mediante instrucciones explícitamente dañinas
Jailbreaking Commercial Black-Box LLMs with Explicitly Harmful Prompts
August 14, 2025
Autores: Chiyu Zhang, Lu Zhou, Xiaogang Xu, Jiafei Wu, Liming Fang, Zhe Liu
cs.AI
Resumen
Evaluar los ataques de jailbreak es un desafío cuando las indicaciones no son abiertamente dañinas o no logran inducir resultados perjudiciales. Lamentablemente, muchos conjuntos de datos existentes de red-teaming contienen este tipo de indicaciones inadecuadas. Para evaluar los ataques con precisión, estos conjuntos de datos deben ser evaluados y depurados en busca de contenido malicioso. Sin embargo, los métodos existentes para la detección de contenido malicioso dependen ya sea de anotación manual, que es intensiva en mano de obra, o de modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), que tienen una precisión inconsistente en la identificación de tipos de contenido dañino. Para equilibrar la precisión y la eficiencia, proponemos un marco de evaluación híbrido denominado MDH (Detección de Contenido Malicioso basado en LLMs con Asistencia Humana) que combina la anotación basada en LLMs con una supervisión humana mínima, y lo aplicamos a la depuración de conjuntos de datos y la detección de respuestas jailbroken. Además, encontramos que los mensajes bien elaborados por los desarrolladores pueden aumentar significativamente el éxito del jailbreak, lo que nos lleva a proponer dos nuevas estrategias: D-Ataque, que aprovecha la simulación de contexto, y DH-CoT, que incorpora cadenas de pensamiento secuestradas. Los códigos, conjuntos de datos, juicios y resultados de detección se publicarán en el repositorio de GitHub: https://github.com/AlienZhang1996/DH-CoT.
English
Evaluating jailbreak attacks is challenging when prompts are not overtly
harmful or fail to induce harmful outputs. Unfortunately, many existing
red-teaming datasets contain such unsuitable prompts. To evaluate attacks
accurately, these datasets need to be assessed and cleaned for maliciousness.
However, existing malicious content detection methods rely on either manual
annotation, which is labor-intensive, or large language models (LLMs), which
have inconsistent accuracy in harmful types. To balance accuracy and
efficiency, we propose a hybrid evaluation framework named MDH (Malicious
content Detection based on LLMs with Human assistance) that combines LLM-based
annotation with minimal human oversight, and apply it to dataset cleaning and
detection of jailbroken responses. Furthermore, we find that well-crafted
developer messages can significantly boost jailbreak success, leading us to
propose two new strategies: D-Attack, which leverages context simulation, and
DH-CoT, which incorporates hijacked chains of thought. The Codes, datasets,
judgements, and detection results will be released in github repository:
https://github.com/AlienZhang1996/DH-CoT.