Samenvoegen verbetert zelfkritiek tegen jailbreak-aanvallen.
Merging Improves Self-Critique Against Jailbreak Attacks
June 11, 2024
Auteurs: Victor Gallego
cs.AI
Samenvatting
De robuustheid van grote taalmodellen (LLM's) tegenover adversariële manipulaties, zoals jailbreak-aanvallen, blijft een aanzienlijke uitdaging. In dit werk stellen we een benadering voor die het zelfkritiekvermogen van het LLM versterkt en het verder verfijnt met behulp van gesaneerde synthetische data. Dit gebeurt door de toevoeging van een extern criticusmodel dat kan worden samengevoegd met het originele model, waardoor de zelfkritiekcapaciteiten worden versterkt en de robuustheid van de reacties van het LLM op adversariële prompts wordt verbeterd. Onze resultaten tonen aan dat de combinatie van samenvoegen en zelfkritiek het aanvalssuccespercentage van tegenstanders aanzienlijk kan verminderen, wat een veelbelovend verdedigingsmechanisme biedt tegen jailbreak-aanvallen. Code, data en modellen zijn vrijgegeven op https://github.com/vicgalle/merging-self-critique-jailbreaks.
English
The robustness of large language models (LLMs) against adversarial
manipulations, such as jailbreak attacks, remains a significant challenge. In
this work, we propose an approach that enhances the self-critique capability of
the LLM and further fine-tunes it over sanitized synthetic data. This is done
with the addition of an external critic model that can be merged with the
original, thus bolstering self-critique capabilities and improving the
robustness of the LLMs response to adversarial prompts. Our results demonstrate
that the combination of merging and self-critique can reduce the attack success
rate of adversaries significantly, thus offering a promising defense mechanism
against jailbreak attacks. Code, data and models released at
https://github.com/vicgalle/merging-self-critique-jailbreaks .