ChatPaper.aiChatPaper

La fusione migliora l'autocritica contro gli attacchi di jailbreak

Merging Improves Self-Critique Against Jailbreak Attacks

June 11, 2024
Autori: Victor Gallego
cs.AI

Abstract

La robustezza dei grandi modelli linguistici (LLM) contro manipolazioni avversarie, come gli attacchi di jailbreak, rimane una sfida significativa. In questo lavoro, proponiamo un approccio che migliora la capacità di autocritica del LLM e lo affina ulteriormente su dati sintetici sanificati. Questo viene realizzato con l'aggiunta di un modello critico esterno che può essere fuso con quello originale, rafforzando così le capacità di autocritica e migliorando la robustezza della risposta del LLM a prompt avversari. I nostri risultati dimostrano che la combinazione di fusione e autocritica può ridurre significativamente il tasso di successo degli attacchi avversari, offrendo così un promettente meccanismo di difesa contro gli attacchi di jailbreak. Codice, dati e modelli sono disponibili all'indirizzo https://github.com/vicgalle/merging-self-critique-jailbreaks.
English
The robustness of large language models (LLMs) against adversarial manipulations, such as jailbreak attacks, remains a significant challenge. In this work, we propose an approach that enhances the self-critique capability of the LLM and further fine-tunes it over sanitized synthetic data. This is done with the addition of an external critic model that can be merged with the original, thus bolstering self-critique capabilities and improving the robustness of the LLMs response to adversarial prompts. Our results demonstrate that the combination of merging and self-critique can reduce the attack success rate of adversaries significantly, thus offering a promising defense mechanism against jailbreak attacks. Code, data and models released at https://github.com/vicgalle/merging-self-critique-jailbreaks .
PDF40December 8, 2024