ChatPaper.aiChatPaper

La fusión mejora la autocrítica frente a ataques de jailbreak

Merging Improves Self-Critique Against Jailbreak Attacks

June 11, 2024
Autores: Victor Gallego
cs.AI

Resumen

La robustez de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) frente a manipulaciones adversarias, como los ataques de jailbreak, sigue siendo un desafío significativo. En este trabajo, proponemos un enfoque que mejora la capacidad de autocrítica del LLM y lo ajusta aún más sobre datos sintéticos saneados. Esto se logra mediante la adición de un modelo crítico externo que puede fusionarse con el original, reforzando así las capacidades de autocrítica y mejorando la robustez de las respuestas del LLM ante indicaciones adversarias. Nuestros resultados demuestran que la combinación de fusión y autocrítica puede reducir significativamente la tasa de éxito de los ataques adversarios, ofreciendo así un mecanismo de defensa prometedor contra los ataques de jailbreak. Código, datos y modelos disponibles en https://github.com/vicgalle/merging-self-critique-jailbreaks.
English
The robustness of large language models (LLMs) against adversarial manipulations, such as jailbreak attacks, remains a significant challenge. In this work, we propose an approach that enhances the self-critique capability of the LLM and further fine-tunes it over sanitized synthetic data. This is done with the addition of an external critic model that can be merged with the original, thus bolstering self-critique capabilities and improving the robustness of the LLMs response to adversarial prompts. Our results demonstrate that the combination of merging and self-critique can reduce the attack success rate of adversaries significantly, thus offering a promising defense mechanism against jailbreak attacks. Code, data and models released at https://github.com/vicgalle/merging-self-critique-jailbreaks .

Summary

AI-Generated Summary

PDF40December 8, 2024