MART: Verbetering van LLM-veiligheid met Multi-round Automatische Red-Teaming
MART: Improving LLM Safety with Multi-round Automatic Red-Teaming
November 13, 2023
Auteurs: Suyu Ge, Chunting Zhou, Rui Hou, Madian Khabsa, Yi-Chia Wang, Qifan Wang, Jiawei Han, Yuning Mao
cs.AI
Samenvatting
Red-teaming is een gangbare praktijk om onveilige gedragingen in Large Language Models (LLM's) te beperken, waarbij LLM's grondig worden beoordeeld om potentiële tekortkomingen te identificeren en deze aan te pakken met verantwoorde en accurate reacties. Hoewel effectief, is handmatig red-teaming kostbaar, en bestaande automatische red-teaming ontdekt meestal veiligheidsrisico's zonder deze op te lossen. In dit artikel stellen we een Multi-round Automatic Red-Teaming (MART) methode voor, die zowel automatisch het schrijven van adversariële prompts als het genereren van veilige reacties omvat, waardoor de schaalbaarheid van red-teaming en de veiligheid van het doel-LLM aanzienlijk worden vergroot. Specifiek interageren een adversariële LLM en een doel-LLM op iteratieve wijze met elkaar, waarbij de adversariële LLM ernaar streeft uitdagende prompts te genereren die onveilige reacties van het doel-LLM uitlokken, terwijl het doel-LLM wordt verfijnd met veiligheidsafgestemde gegevens op deze adversariële prompts. In elke ronde ontwikkelt de adversariële LLM betere aanvallen op het bijgewerkte doel-LLM, terwijl het doel-LLM zichzelf ook verbetert door middel van veiligheidsverfijning. Op benchmarks voor adversariële prompts daalt de overtredingsratio van een LLM met beperkte veiligheidsafstemming tot wel 84,7% na 4 rondes van MART, wat vergelijkbaar is met de prestaties van LLM's met uitgebreid adversariële promptschrijven. Opmerkelijk is dat de behulpzaamheid van het model op niet-adversariële prompts stabiel blijft gedurende de iteraties, wat aangeeft dat het doel-LLM sterke prestaties blijft leveren bij het opvolgen van instructies.
English
Red-teaming is a common practice for mitigating unsafe behaviors in Large
Language Models (LLMs), which involves thoroughly assessing LLMs to identify
potential flaws and addressing them with responsible and accurate responses.
While effective, manual red-teaming is costly, and existing automatic
red-teaming typically discovers safety risks without addressing them. In this
paper, we propose a Multi-round Automatic Red-Teaming (MART) method, which
incorporates both automatic adversarial prompt writing and safe response
generation, significantly increasing red-teaming scalability and the safety of
the target LLM. Specifically, an adversarial LLM and a target LLM interplay
with each other in an iterative manner, where the adversarial LLM aims to
generate challenging prompts that elicit unsafe responses from the target LLM,
while the target LLM is fine-tuned with safety aligned data on these
adversarial prompts. In each round, the adversarial LLM crafts better attacks
on the updated target LLM, while the target LLM also improves itself through
safety fine-tuning. On adversarial prompt benchmarks, the violation rate of an
LLM with limited safety alignment reduces up to 84.7% after 4 rounds of MART,
achieving comparable performance to LLMs with extensive adversarial prompt
writing. Notably, model helpfulness on non-adversarial prompts remains stable
throughout iterations, indicating the target LLM maintains strong performance
on instruction following.