Robar parte de un modelo de lenguaje en producciónStealing Part of a Production Language Model
Presentamos el primer ataque de robo de modelos que extrae información precisa y no trivial de modelos de lenguaje de caja negra en producción, como ChatGPT de OpenAI o PaLM-2 de Google. Específicamente, nuestro ataque recupera la capa de proyección de embeddings (hasta simetrías) de un modelo transformador, dado un acceso típico a la API. Por menos de 20 USD, nuestro ataque extrae la matriz de proyección completa de los modelos de lenguaje Ada y Babbage de OpenAI. De esta manera, confirmamos, por primera vez, que estos modelos de caja negra tienen una dimensión oculta de 1024 y 2048, respectivamente. También recuperamos el tamaño exacto de la dimensión oculta del modelo gpt-3.5-turbo y estimamos que costaría menos de 2000 USD en consultas recuperar la matriz de proyección completa. Concluimos con posibles defensas y mitigaciones, y discutimos las implicaciones de trabajos futuros que podrían extender nuestro ataque.