窃取生产语言模型的一部分Stealing Part of a Production Language Model
我们介绍了首个模型窃取攻击,可以从黑盒生产语言模型(如OpenAI的ChatGPT或Google的PaLM-2)中提取精确且非平凡的信息。具体来说,我们的攻击可以在典型API访问的情况下恢复变压器模型的嵌入投影层(考虑对称性)。在不到20美元的成本下,我们的攻击可以提取OpenAI的Ada和Babbage语言模型的整个投影矩阵。因此,我们首次确认这些黑盒模型分别具有隐藏维度为1024和2048。我们还恢复了gpt-3.5-turbo模型的确切隐藏维度大小,并估计恢复整个投影矩阵可能只需不到2,000个查询成本。最后,我们总结了潜在的防御和缓解措施,并讨论了可能延伸我们攻击的未来工作的影响。