ChatPaper.aiChatPaper

A fusão melhora a autocrítica contra ataques de jailbreak.

Merging Improves Self-Critique Against Jailbreak Attacks

June 11, 2024
Autores: Victor Gallego
cs.AI

Resumo

A robustez dos modelos de linguagem de grande escala (LLMs) contra manipulações adversárias, como ataques de jailbreak, continua sendo um desafio significativo. Neste trabalho, propomos uma abordagem que aprimora a capacidade de autocrítica do LLM e o ajusta ainda mais sobre dados sintéticos sanitizados. Isso é feito com a adição de um modelo crítico externo que pode ser integrado ao original, fortalecendo assim as capacidades de autocrítica e melhorando a robustez da resposta do LLM a prompts adversários. Nossos resultados demonstram que a combinação de integração e autocrítica pode reduzir significativamente a taxa de sucesso de ataques adversários, oferecendo, portanto, um mecanismo de defesa promissor contra ataques de jailbreak. Código, dados e modelos estão disponíveis em https://github.com/vicgalle/merging-self-critique-jailbreaks.
English
The robustness of large language models (LLMs) against adversarial manipulations, such as jailbreak attacks, remains a significant challenge. In this work, we propose an approach that enhances the self-critique capability of the LLM and further fine-tunes it over sanitized synthetic data. This is done with the addition of an external critic model that can be merged with the original, thus bolstering self-critique capabilities and improving the robustness of the LLMs response to adversarial prompts. Our results demonstrate that the combination of merging and self-critique can reduce the attack success rate of adversaries significantly, thus offering a promising defense mechanism against jailbreak attacks. Code, data and models released at https://github.com/vicgalle/merging-self-critique-jailbreaks .
PDF40December 8, 2024