프로덕션 언어 모델의 일부를 훔치기Stealing Part of a Production Language Model
우리는 OpenAI의 ChatGPT나 Google의 PaLM-2와 같은 블랙박스 생산 언어 모델로부터 정확하고 중요한 정보를 추출하는 최초의 모델 도용 공격을 소개합니다. 구체적으로, 우리의 공격은 일반적인 API 접근을 통해 트랜스포머 모델의 임베딩 투영 레이어(대칭성까지)를 복구합니다. 20달러 미만의 비용으로, 우리는 OpenAI의 Ada와 Babbage 언어 모델의 전체 투영 행렬을 추출합니다. 이를 통해 우리는 처음으로 이러한 블랙박스 모델이 각각 1024와 2048의 은닉 차원을 가지고 있음을 확인했습니다. 또한, 우리는 gpt-3.5-turbo 모델의 정확한 은닉 차원 크기를 복구했으며, 전체 투영 행렬을 복구하는 데 2,000달러 미만의 쿼리 비용이 소요될 것으로 추정했습니다. 마지막으로, 잠재적인 방어 및 완화 방안을 제시하고, 우리의 공격을 확장할 수 있는 미래 연구의 함의에 대해 논의합니다.