La fusion améliore l'auto-critique contre les attaques de contournement
Merging Improves Self-Critique Against Jailbreak Attacks
June 11, 2024
Auteurs: Victor Gallego
cs.AI
Résumé
La robustesse des grands modèles de langage (LLM) face aux manipulations adverses, telles que les attaques de jailbreak, reste un défi majeur. Dans ce travail, nous proposons une approche qui améliore la capacité d'auto-critique du LLM et l'affine davantage sur des données synthétiques assainies. Cela est réalisé grâce à l'ajout d'un modèle critique externe qui peut être fusionné avec le modèle original, renforçant ainsi les capacités d'auto-critique et améliorant la robustesse des réponses du LLM face aux incitations adverses. Nos résultats démontrent que la combinaison de la fusion et de l'auto-critique peut réduire significativement le taux de réussite des attaques adverses, offrant ainsi un mécanisme de défense prometteur contre les attaques de jailbreak. Le code, les données et les modèles sont disponibles à l'adresse suivante : https://github.com/vicgalle/merging-self-critique-jailbreaks.
English
The robustness of large language models (LLMs) against adversarial
manipulations, such as jailbreak attacks, remains a significant challenge. In
this work, we propose an approach that enhances the self-critique capability of
the LLM and further fine-tunes it over sanitized synthetic data. This is done
with the addition of an external critic model that can be merged with the
original, thus bolstering self-critique capabilities and improving the
robustness of the LLMs response to adversarial prompts. Our results demonstrate
that the combination of merging and self-critique can reduce the attack success
rate of adversaries significantly, thus offering a promising defense mechanism
against jailbreak attacks. Code, data and models released at
https://github.com/vicgalle/merging-self-critique-jailbreaks .Summary
AI-Generated Summary