Кража части языковой модели производстваStealing Part of a Production Language Model
Мы представляем первую атаку по краже модели, которая извлекает точную, нетривиальную информацию из черного ящика производственных языковых моделей, таких как ChatGPT от OpenAI или PaLM-2 от Google. Конкретно, наша атака восстанавливает слой вложения проекции (до симметрий) модели трансформера при типичном доступе к API. За сумму менее 20 долларов США наша атака извлекает полную матрицу проекции языковых моделей Ada и Babbage от OpenAI. Таким образом, мы подтверждаем впервые, что у этих черных ящиков есть скрытая размерность 1024 и 2048 соответственно. Мы также восстанавливаем точный размер скрытой размерности модели gpt-3.5-turbo и оцениваем, что стоимость извлечения полной матрицы проекции составит менее 2 000 запросов. Мы заканчиваем потенциальными защитными мерами и смягчениями, обсуждаем последствия возможных будущих работ, которые могут расширить нашу атаку.