MART: 다중 라운드 자동 레드팀을 통한 대형 언어 모델 안전성 강화
MART: Improving LLM Safety with Multi-round Automatic Red-Teaming
November 13, 2023
저자: Suyu Ge, Chunting Zhou, Rui Hou, Madian Khabsa, Yi-Chia Wang, Qifan Wang, Jiawei Han, Yuning Mao
cs.AI
초록
레드 팀링(Red-teaming)은 대규모 언어 모델(LLM)의 안전하지 않은 행동을 완화하기 위한 일반적인 방법으로, 잠재적인 결함을 식별하고 책임감 있고 정확한 응답으로 이를 해결하기 위해 LLM을 철저히 평가하는 과정을 포함합니다. 수동 레드 팀링은 효과적이지만 비용이 많이 들며, 기존의 자동 레드 팀링은 일반적으로 안전 위험을 발견하지만 이를 해결하지는 못합니다. 본 논문에서는 다중 라운드 자동 레드 팀링(Multi-round Automatic Red-Teaming, MART) 방법을 제안합니다. 이 방법은 자동 적대적 프롬프트 작성과 안전한 응답 생성을 모두 통합하여 레드 팀링의 확장성과 대상 LLM의 안전성을 크게 향상시킵니다. 구체적으로, 적대적 LLM과 대상 LLM이 반복적으로 상호작용하며, 적대적 LLM은 대상 LLM으로부터 안전하지 않은 응답을 이끌어내기 위한 도전적인 프롬프트를 생성하는 것을 목표로 합니다. 반면, 대상 LLM은 이러한 적대적 프롬프트에 대해 안전성을 강화한 데이터로 미세 조정됩니다. 각 라운드에서 적대적 LLM은 업데이트된 대상 LLM에 대해 더 나은 공격을 구성하고, 대상 LLM은 안전성 미세 조정을 통해 스스로를 개선합니다. 적대적 프롬프트 벤치마크에서, 제한된 안전성 조정을 가진 LLM의 위반률은 4라운드의 MART 이후 최대 84.7% 감소하며, 광범위한 적대적 프롬프트 작성이 적용된 LLM과 비슷한 성능을 달성합니다. 특히, 비적대적 프롬프트에 대한 모델의 유용성은 반복 과정 동안 안정적으로 유지되어, 대상 LLM이 명령 수행에서 강력한 성능을 유지함을 나타냅니다.
English
Red-teaming is a common practice for mitigating unsafe behaviors in Large
Language Models (LLMs), which involves thoroughly assessing LLMs to identify
potential flaws and addressing them with responsible and accurate responses.
While effective, manual red-teaming is costly, and existing automatic
red-teaming typically discovers safety risks without addressing them. In this
paper, we propose a Multi-round Automatic Red-Teaming (MART) method, which
incorporates both automatic adversarial prompt writing and safe response
generation, significantly increasing red-teaming scalability and the safety of
the target LLM. Specifically, an adversarial LLM and a target LLM interplay
with each other in an iterative manner, where the adversarial LLM aims to
generate challenging prompts that elicit unsafe responses from the target LLM,
while the target LLM is fine-tuned with safety aligned data on these
adversarial prompts. In each round, the adversarial LLM crafts better attacks
on the updated target LLM, while the target LLM also improves itself through
safety fine-tuning. On adversarial prompt benchmarks, the violation rate of an
LLM with limited safety alignment reduces up to 84.7% after 4 rounds of MART,
achieving comparable performance to LLMs with extensive adversarial prompt
writing. Notably, model helpfulness on non-adversarial prompts remains stable
throughout iterations, indicating the target LLM maintains strong performance
on instruction following.