Aprovechando las nuevas API de GPT-4

Resumen

Los ataques a modelos de lenguaje suelen asumir uno de dos modelos de amenaza extremos: acceso completo de tipo "caja blanca" a los pesos del modelo, o acceso de tipo "caja negra" limitado a una API de generación de texto. Sin embargo, las API del mundo real suelen ser más flexibles que la mera generación de texto: estas API exponen un acceso de tipo "caja gris" que da lugar a nuevos vectores de ataque. Para explorar esto, realizamos pruebas de "red teaming" en tres nuevas funcionalidades expuestas en las API de GPT-4: ajuste fino (fine-tuning), llamadas a funciones y recuperación de conocimiento. Descubrimos que ajustar un modelo con tan solo 15 ejemplos dañinos o 100 ejemplos benignos puede eliminar las salvaguardas principales de GPT-4, permitiendo una variedad de salidas perjudiciales. Además, encontramos que los Asistentes de GPT-4 revelan fácilmente el esquema de llamadas a funciones y pueden ser manipulados para ejecutar llamadas arbitrarias. Por último, observamos que la recuperación de conocimiento puede ser secuestrada inyectando instrucciones en los documentos de recuperación. Estas vulnerabilidades destacan que cualquier adición a la funcionalidad expuesta por una API puede crear nuevas vulnerabilidades.

English

Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose ``gray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.

Aprovechando las nuevas API de GPT-4

Exploiting Novel GPT-4 APIs

Resumen

Support