Sfruttare le nuove API di GPT-4

Abstract

Gli attacchi ai modelli linguistici assumono tipicamente uno dei due modelli di minaccia estremi: accesso completo in modalità white-box ai pesi del modello, o accesso in modalità black-box limitato a un'API di generazione di testo. Tuttavia, le API del mondo reale sono spesso più flessibili della semplice generazione di testo: queste API espongono un accesso "gray-box" che porta a nuovi vettori di minaccia. Per esplorare questo aspetto, abbiamo testato in modalità red-team tre nuove funzionalità esposte nelle API di GPT-4: fine-tuning, chiamata di funzioni e recupero di conoscenza. Abbiamo scoperto che il fine-tuning di un modello su appena 15 esempi dannosi o 100 esempi benigni può rimuovere le principali protezioni di GPT-4, consentendo una gamma di output dannosi. Inoltre, abbiamo osservato che gli assistenti GPT-4 rivelano prontamente lo schema delle chiamate di funzione e possono essere indotti a eseguire chiamate di funzione arbitrarie. Infine, abbiamo riscontrato che il recupero di conoscenza può essere dirottato iniettando istruzioni nei documenti di recupero. Queste vulnerabilità evidenziano che qualsiasi aggiunta alla funzionalità esposta da un'API può creare nuove vulnerabilità.

English

Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose ``gray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.

Sfruttare le nuove API di GPT-4

Exploiting Novel GPT-4 APIs

Abstract

Support