Samenvoegen verbetert zelfkritiek tegen jailbreak-aanvallen.

Samenvatting

De robuustheid van grote taalmodellen (LLM's) tegenover adversariële manipulaties, zoals jailbreak-aanvallen, blijft een aanzienlijke uitdaging. In dit werk stellen we een benadering voor die het zelfkritiekvermogen van het LLM versterkt en het verder verfijnt met behulp van gesaneerde synthetische data. Dit gebeurt door de toevoeging van een extern criticusmodel dat kan worden samengevoegd met het originele model, waardoor de zelfkritiekcapaciteiten worden versterkt en de robuustheid van de reacties van het LLM op adversariële prompts wordt verbeterd. Onze resultaten tonen aan dat de combinatie van samenvoegen en zelfkritiek het aanvalssuccespercentage van tegenstanders aanzienlijk kan verminderen, wat een veelbelovend verdedigingsmechanisme biedt tegen jailbreak-aanvallen. Code, data en modellen zijn vrijgegeven op https://github.com/vicgalle/merging-self-critique-jailbreaks.

English

The robustness of large language models (LLMs) against adversarial manipulations, such as jailbreak attacks, remains a significant challenge. In this work, we propose an approach that enhances the self-critique capability of the LLM and further fine-tunes it over sanitized synthetic data. This is done with the addition of an external critic model that can be merged with the original, thus bolstering self-critique capabilities and improving the robustness of the LLMs response to adversarial prompts. Our results demonstrate that the combination of merging and self-critique can reduce the attack success rate of adversaries significantly, thus offering a promising defense mechanism against jailbreak attacks. Code, data and models released at https://github.com/vicgalle/merging-self-critique-jailbreaks .

Samenvoegen verbetert zelfkritiek tegen jailbreak-aanvallen.

Merging Improves Self-Critique Against Jailbreak Attacks

Samenvatting

Support