ChatPaper.aiChatPaper

Die Fusion verbessert die Selbstkritik gegen Jailbreak-Angriffe.

Merging Improves Self-Critique Against Jailbreak Attacks

June 11, 2024
Autoren: Victor Gallego
cs.AI

Zusammenfassung

Die Robustheit großer Sprachmodelle (LLMs) gegen adversäre Manipulationen, wie z.B. Jailbreak-Angriffe, bleibt eine bedeutende Herausforderung. In dieser Arbeit schlagen wir einen Ansatz vor, der die Selbstkritikfähigkeit des LLM verbessert und ihn weiter über bereinigte synthetische Daten feinabstimmt. Dies wird durch die Hinzufügung eines externen Kritikermodells erreicht, das mit dem Original fusioniert werden kann, um so die Selbstkritikfähigkeiten zu stärken und die Robustheit der Reaktion des LLM auf adversäre Eingaben zu verbessern. Unsere Ergebnisse zeigen, dass die Kombination aus Fusion und Selbstkritik die Erfolgsrate von Angriffen durch Gegner signifikant reduzieren kann und somit einen vielversprechenden Verteidigungsmechanismus gegen Jailbreak-Angriffe bietet. Code, Daten und Modelle sind unter https://github.com/vicgalle/merging-self-critique-jailbreaks veröffentlicht.
English
The robustness of large language models (LLMs) against adversarial manipulations, such as jailbreak attacks, remains a significant challenge. In this work, we propose an approach that enhances the self-critique capability of the LLM and further fine-tunes it over sanitized synthetic data. This is done with the addition of an external critic model that can be merged with the original, thus bolstering self-critique capabilities and improving the robustness of the LLMs response to adversarial prompts. Our results demonstrate that the combination of merging and self-critique can reduce the attack success rate of adversaries significantly, thus offering a promising defense mechanism against jailbreak attacks. Code, data and models released at https://github.com/vicgalle/merging-self-critique-jailbreaks .

Summary

AI-Generated Summary

PDF40December 8, 2024