정렬된 신경망은 적대적으로 정렬되어 있는가?
Are aligned neural networks adversarially aligned?
June 26, 2023
저자: Nicholas Carlini, Milad Nasr, Christopher A. Choquette-Choo, Matthew Jagielski, Irena Gao, Anas Awadalla, Pang Wei Koh, Daphne Ippolito, Katherine Lee, Florian Tramer, Ludwig Schmidt
cs.AI
초록
대규모 언어 모델은 이제 창작자의 목표, 즉 "유용하고 무해한" 상태에 맞춰 조정되고 있습니다. 이러한 모델은 사용자의 질문에 도움이 되는 응답을 제공해야 하지만, 해를 끼칠 수 있는 요청에는 응답을 거부해야 합니다. 그러나 적대적 사용자는 이러한 조정 시도를 우회하는 입력을 구성할 수 있습니다. 본 연구에서는 최악의 경우 입력(적대적 예제)을 구성하는 적대적 사용자와 상호작용할 때 이러한 모델이 어느 정도까지 조정 상태를 유지하는지 조사합니다. 이러한 입력은 모델이 일반적으로 금지된 유해한 콘텐츠를 생성하도록 설계됩니다. 우리는 기존의 NLP 기반 최적화 공격이 조정된 텍스트 모델을 안정적으로 공격하기에는 충분히 강력하지 않음을 보여줍니다: 현재의 NLP 기반 공격이 실패하더라도, 무차별 대입 방식으로 적대적 입력을 찾을 수 있습니다. 결과적으로, 현재의 공격 실패는 조정된 텍스트 모델이 적대적 입력 하에서도 조정 상태를 유지한다는 증거로 간주되어서는 안 됩니다.
그러나 최근 대규모 ML 모델의 추세는 사용자가 제공한 이미지가 생성되는 텍스트에 영향을 미칠 수 있는 멀티모달 모델로 전환되고 있습니다. 우리는 이러한 모델이 입력 이미지에 대한 적대적 섭동을 통해 임의의 비조정 행동을 수행하도록 쉽게 공격될 수 있음을 보여줍니다. 우리는 개선된 NLP 공격이 텍스트 전용 모델에 대해 동일한 수준의 적대적 제어를 보여줄 수 있을 것이라고 추측합니다.
English
Large language models are now tuned to align with the goals of their
creators, namely to be "helpful and harmless." These models should respond
helpfully to user questions, but refuse to answer requests that could cause
harm. However, adversarial users can construct inputs which circumvent attempts
at alignment. In this work, we study to what extent these models remain
aligned, even when interacting with an adversarial user who constructs
worst-case inputs (adversarial examples). These inputs are designed to cause
the model to emit harmful content that would otherwise be prohibited. We show
that existing NLP-based optimization attacks are insufficiently powerful to
reliably attack aligned text models: even when current NLP-based attacks fail,
we can find adversarial inputs with brute force. As a result, the failure of
current attacks should not be seen as proof that aligned text models remain
aligned under adversarial inputs.
However the recent trend in large-scale ML models is multimodal models that
allow users to provide images that influence the text that is generated. We
show these models can be easily attacked, i.e., induced to perform arbitrary
un-aligned behavior through adversarial perturbation of the input image. We
conjecture that improved NLP attacks may demonstrate this same level of
adversarial control over text-only models.