MART: Verbesserung der LLM-Sicherheit durch mehrstufiges automatisches Red-Teaming
MART: Improving LLM Safety with Multi-round Automatic Red-Teaming
November 13, 2023
Autoren: Suyu Ge, Chunting Zhou, Rui Hou, Madian Khabsa, Yi-Chia Wang, Qifan Wang, Jiawei Han, Yuning Mao
cs.AI
Zusammenfassung
Red-Teaming ist eine gängige Praxis zur Minderung unsicherer Verhaltensweisen in großen Sprachmodellen (LLMs), bei der LLMs gründlich bewertet werden, um potenzielle Schwachstellen zu identifizieren und diese mit verantwortungsvollen und präzisen Antworten zu beheben. Obwohl effektiv, ist manuelles Red-Teaming kostspielig, und bestehende automatische Red-Teaming-Verfahren entdecken in der Regel Sicherheitsrisiken, ohne sie zu beheben. In diesem Artikel schlagen wir eine Multi-round Automatic Red-Teaming (MART)-Methode vor, die sowohl automatisches adversarisches Prompt-Schreiben als auch die Generierung sicherer Antworten integriert, wodurch die Skalierbarkeit des Red-Teamings und die Sicherheit des Ziel-LLMs erheblich gesteigert werden. Konkret interagieren ein adversarisches LLM und ein Ziel-LLM in iterativer Weise miteinander, wobei das adversarische LLM darauf abzielt, herausfordernde Prompts zu generieren, die unsichere Antworten des Ziel-LLMs hervorrufen, während das Ziel-LLM mit sicherheitsausgerichteten Daten auf diese adversarischen Prompts feinabgestimmt wird. In jeder Runde entwickelt das adversarische LLM bessere Angriffe auf das aktualisierte Ziel-LLM, während sich das Ziel-LLM durch Sicherheits-Fine-Tuning ebenfalls verbessert. Auf adversarischen Prompt-Benchmarks reduziert sich die Verletzungsrate eines LLMs mit begrenzter Sicherheitsausrichtung nach 4 Runden MART um bis zu 84,7 % und erreicht damit eine vergleichbare Leistung wie LLMs mit umfangreichem adversarischem Prompt-Schreiben. Bemerkenswerterweise bleibt die Hilfsbereitschaft des Modells bei nicht-adversarischen Prompts über die Iterationen hinweg stabil, was darauf hindeutet, dass das Ziel-LLM eine starke Leistung bei der Befolgung von Anweisungen beibehält.
English
Red-teaming is a common practice for mitigating unsafe behaviors in Large
Language Models (LLMs), which involves thoroughly assessing LLMs to identify
potential flaws and addressing them with responsible and accurate responses.
While effective, manual red-teaming is costly, and existing automatic
red-teaming typically discovers safety risks without addressing them. In this
paper, we propose a Multi-round Automatic Red-Teaming (MART) method, which
incorporates both automatic adversarial prompt writing and safe response
generation, significantly increasing red-teaming scalability and the safety of
the target LLM. Specifically, an adversarial LLM and a target LLM interplay
with each other in an iterative manner, where the adversarial LLM aims to
generate challenging prompts that elicit unsafe responses from the target LLM,
while the target LLM is fine-tuned with safety aligned data on these
adversarial prompts. In each round, the adversarial LLM crafts better attacks
on the updated target LLM, while the target LLM also improves itself through
safety fine-tuning. On adversarial prompt benchmarks, the violation rate of an
LLM with limited safety alignment reduces up to 84.7% after 4 rounds of MART,
achieving comparable performance to LLMs with extensive adversarial prompt
writing. Notably, model helpfulness on non-adversarial prompts remains stable
throughout iterations, indicating the target LLM maintains strong performance
on instruction following.