새로운 GPT-4 API 활용하기
Exploiting Novel GPT-4 APIs
December 21, 2023
저자: Kellin Pelrine, Mohammad Taufeeque, Michał Zając, Euan McLean, Adam Gleave
cs.AI
초록
언어 모델 공격은 일반적으로 두 가지 극단적인 위협 모델 중 하나를 가정합니다: 모델 가중치에 대한 완전한 화이트박스 접근 또는 텍스트 생성 API로 제한된 블랙박스 접근. 그러나 실제 세계의 API는 종종 단순한 텍스트 생성 이상으로 더 유연합니다: 이러한 API는 새로운 위협 벡터로 이어지는 "그레이박스" 접근을 노출시킵니다. 이를 탐구하기 위해, 우리는 GPT-4 API에서 노출된 세 가지 새로운 기능(파인튜닝, 함수 호출, 지식 검색)을 레드팀했습니다. 우리는 15개의 유해한 예제 또는 100개의 무해한 예제만으로 모델을 파인튜닝하는 것이 GPT-4의 핵심 안전장치를 제거하여 다양한 유해한 출력을 가능하게 한다는 것을 발견했습니다. 더 나아가, GPT-4 어시스턴트가 함수 호출 스키마를 쉽게 누출시키고 임의의 함수 호출을 실행하도록 만들 수 있다는 것을 발견했습니다. 마지막으로, 지식 검색이 검색 문서에 명령을 주입함으로써 탈취될 수 있다는 것을 발견했습니다. 이러한 취약점은 API에 노출된 기능에 추가되는 모든 것이 새로운 취약점을 생성할 수 있음을 강조합니다.
English
Language model attacks typically assume one of two extreme threat models:
full white-box access to model weights, or black-box access limited to a text
generation API. However, real-world APIs are often more flexible than just text
generation: these APIs expose ``gray-box'' access leading to new threat
vectors. To explore this, we red-team three new functionalities exposed in the
GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that
fine-tuning a model on as few as 15 harmful examples or 100 benign examples can
remove core safeguards from GPT-4, enabling a range of harmful outputs.
Furthermore, we find that GPT-4 Assistants readily divulge the function call
schema and can be made to execute arbitrary function calls. Finally, we find
that knowledge retrieval can be hijacked by injecting instructions into
retrieval documents. These vulnerabilities highlight that any additions to the
functionality exposed by an API can create new vulnerabilities.