MART: Verbesserung der LLM-Sicherheit durch mehrstufiges automatisches Red-Teaming

papers.abstract

Red-Teaming ist eine gängige Praxis zur Minderung unsicherer Verhaltensweisen in großen Sprachmodellen (LLMs), bei der LLMs gründlich bewertet werden, um potenzielle Schwachstellen zu identifizieren und diese mit verantwortungsvollen und präzisen Antworten zu beheben. Obwohl effektiv, ist manuelles Red-Teaming kostspielig, und bestehende automatische Red-Teaming-Verfahren entdecken in der Regel Sicherheitsrisiken, ohne sie zu beheben. In diesem Artikel schlagen wir eine Multi-round Automatic Red-Teaming (MART)-Methode vor, die sowohl automatisches adversarisches Prompt-Schreiben als auch die Generierung sicherer Antworten integriert, wodurch die Skalierbarkeit des Red-Teamings und die Sicherheit des Ziel-LLMs erheblich gesteigert werden. Konkret interagieren ein adversarisches LLM und ein Ziel-LLM in iterativer Weise miteinander, wobei das adversarische LLM darauf abzielt, herausfordernde Prompts zu generieren, die unsichere Antworten des Ziel-LLMs hervorrufen, während das Ziel-LLM mit sicherheitsausgerichteten Daten auf diese adversarischen Prompts feinabgestimmt wird. In jeder Runde entwickelt das adversarische LLM bessere Angriffe auf das aktualisierte Ziel-LLM, während sich das Ziel-LLM durch Sicherheits-Fine-Tuning ebenfalls verbessert. Auf adversarischen Prompt-Benchmarks reduziert sich die Verletzungsrate eines LLMs mit begrenzter Sicherheitsausrichtung nach 4 Runden MART um bis zu 84,7 % und erreicht damit eine vergleichbare Leistung wie LLMs mit umfangreichem adversarischem Prompt-Schreiben. Bemerkenswerterweise bleibt die Hilfsbereitschaft des Modells bei nicht-adversarischen Prompts über die Iterationen hinweg stabil, was darauf hindeutet, dass das Ziel-LLM eine starke Leistung bei der Befolgung von Anweisungen beibehält.

English

Red-teaming is a common practice for mitigating unsafe behaviors in Large Language Models (LLMs), which involves thoroughly assessing LLMs to identify potential flaws and addressing them with responsible and accurate responses. While effective, manual red-teaming is costly, and existing automatic red-teaming typically discovers safety risks without addressing them. In this paper, we propose a Multi-round Automatic Red-Teaming (MART) method, which incorporates both automatic adversarial prompt writing and safe response generation, significantly increasing red-teaming scalability and the safety of the target LLM. Specifically, an adversarial LLM and a target LLM interplay with each other in an iterative manner, where the adversarial LLM aims to generate challenging prompts that elicit unsafe responses from the target LLM, while the target LLM is fine-tuned with safety aligned data on these adversarial prompts. In each round, the adversarial LLM crafts better attacks on the updated target LLM, while the target LLM also improves itself through safety fine-tuning. On adversarial prompt benchmarks, the violation rate of an LLM with limited safety alignment reduces up to 84.7% after 4 rounds of MART, achieving comparable performance to LLMs with extensive adversarial prompt writing. Notably, model helpfulness on non-adversarial prompts remains stable throughout iterations, indicating the target LLM maintains strong performance on instruction following.

MART: Verbesserung der LLM-Sicherheit durch mehrstufiges automatisches Red-Teaming

MART: Improving LLM Safety with Multi-round Automatic Red-Teaming

papers.abstract

Support