Robar parte de un modelo de lenguaje en producción
Stealing Part of a Production Language Model
March 11, 2024
Autores: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Eric Wallace, David Rolnick, Florian Tramèr
cs.AI
Resumen
Presentamos el primer ataque de robo de modelos que extrae información precisa y no trivial de modelos de lenguaje de caja negra en producción, como ChatGPT de OpenAI o PaLM-2 de Google. Específicamente, nuestro ataque recupera la capa de proyección de embeddings (hasta simetrías) de un modelo transformador, dado un acceso típico a la API. Por menos de 20 USD, nuestro ataque extrae la matriz de proyección completa de los modelos de lenguaje Ada y Babbage de OpenAI. De esta manera, confirmamos, por primera vez, que estos modelos de caja negra tienen una dimensión oculta de 1024 y 2048, respectivamente. También recuperamos el tamaño exacto de la dimensión oculta del modelo gpt-3.5-turbo y estimamos que costaría menos de 2000 USD en consultas recuperar la matriz de proyección completa. Concluimos con posibles defensas y mitigaciones, y discutimos las implicaciones de trabajos futuros que podrían extender nuestro ataque.
English
We introduce the first model-stealing attack that extracts precise,
nontrivial information from black-box production language models like OpenAI's
ChatGPT or Google's PaLM-2. Specifically, our attack recovers the embedding
projection layer (up to symmetries) of a transformer model, given typical API
access. For under \20 USD, our attack extracts the entire projection matrix of
OpenAI's Ada and Babbage language models. We thereby confirm, for the first
time, that these black-box models have a hidden dimension of 1024 and 2048,
respectively. We also recover the exact hidden dimension size of the
gpt-3.5-turbo model, and estimate it would cost under 2,000 in queries to
recover the entire projection matrix. We conclude with potential defenses and
mitigations, and discuss the implications of possible future work that could
extend our attack.Summary
AI-Generated Summary