Explorando as Novas APIs do GPT-4

Resumo

Ataques a modelos de linguagem geralmente assumem um dos dois modelos de ameaça extremos: acesso total em "white-box" aos pesos do modelo ou acesso em "black-box" limitado a uma API de geração de texto. No entanto, APIs do mundo real costumam ser mais flexíveis do que apenas geração de texto: essas APIs expõem um acesso "gray-box", o que abre novos vetores de ataque. Para explorar isso, realizamos testes de red teaming em três novas funcionalidades expostas nas APIs do GPT-4: fine-tuning, chamada de funções e recuperação de conhecimento. Descobrimos que ajustar o modelo com apenas 15 exemplos maliciosos ou 100 exemplos benignos pode remover proteções essenciais do GPT-4, permitindo uma variedade de saídas prejudiciais. Além disso, observamos que os Assistantes do GPT-4 revelam prontamente o esquema de chamada de funções e podem ser induzidos a executar chamadas de funções arbitrárias. Por fim, constatamos que a recuperação de conhecimento pode ser manipulada pela injeção de instruções em documentos de recuperação. Essas vulnerabilidades destacam que qualquer adição à funcionalidade exposta por uma API pode criar novas vulnerabilidades.

English

Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose ``gray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.

Explorando as Novas APIs do GPT-4

Exploiting Novel GPT-4 APIs

Resumo

Support