Explorando as Novas APIs do GPT-4
Exploiting Novel GPT-4 APIs
December 21, 2023
Autores: Kellin Pelrine, Mohammad Taufeeque, Michał Zając, Euan McLean, Adam Gleave
cs.AI
Resumo
Ataques a modelos de linguagem geralmente assumem um dos dois modelos de ameaça extremos: acesso total em "white-box" aos pesos do modelo ou acesso em "black-box" limitado a uma API de geração de texto. No entanto, APIs do mundo real costumam ser mais flexíveis do que apenas geração de texto: essas APIs expõem um acesso "gray-box", o que abre novos vetores de ataque. Para explorar isso, realizamos testes de red teaming em três novas funcionalidades expostas nas APIs do GPT-4: fine-tuning, chamada de funções e recuperação de conhecimento. Descobrimos que ajustar o modelo com apenas 15 exemplos maliciosos ou 100 exemplos benignos pode remover proteções essenciais do GPT-4, permitindo uma variedade de saídas prejudiciais. Além disso, observamos que os Assistantes do GPT-4 revelam prontamente o esquema de chamada de funções e podem ser induzidos a executar chamadas de funções arbitrárias. Por fim, constatamos que a recuperação de conhecimento pode ser manipulada pela injeção de instruções em documentos de recuperação. Essas vulnerabilidades destacam que qualquer adição à funcionalidade exposta por uma API pode criar novas vulnerabilidades.
English
Language model attacks typically assume one of two extreme threat models:
full white-box access to model weights, or black-box access limited to a text
generation API. However, real-world APIs are often more flexible than just text
generation: these APIs expose ``gray-box'' access leading to new threat
vectors. To explore this, we red-team three new functionalities exposed in the
GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that
fine-tuning a model on as few as 15 harmful examples or 100 benign examples can
remove core safeguards from GPT-4, enabling a range of harmful outputs.
Furthermore, we find that GPT-4 Assistants readily divulge the function call
schema and can be made to execute arbitrary function calls. Finally, we find
that knowledge retrieval can be hijacked by injecting instructions into
retrieval documents. These vulnerabilities highlight that any additions to the
functionality exposed by an API can create new vulnerabilities.