Exploitation des nouvelles API de GPT-4

papers.abstract

Les attaques sur les modèles de langage supposent généralement l'un des deux modèles de menace extrêmes : un accès complet en boîte blanche aux poids du modèle, ou un accès en boîte noire limité à une API de génération de texte. Cependant, les API du monde réel sont souvent plus flexibles que la simple génération de texte : ces API exposent un accès en « boîte grise » ouvrant la voie à de nouveaux vecteurs de menace. Pour explorer cela, nous avons testé en mode red team trois nouvelles fonctionnalités exposées dans les API de GPT-4 : le fine-tuning, l'appel de fonctions et la récupération de connaissances. Nous constatons que le fine-tuning d'un modèle sur aussi peu que 15 exemples nuisibles ou 100 exemples bénins peut supprimer les protections essentielles de GPT-4, permettant une gamme de sorties nuisibles. De plus, nous observons que les Assistants GPT-4 divulguent facilement le schéma d'appel de fonctions et peuvent être amenés à exécuter des appels de fonctions arbitraires. Enfin, nous constatons que la récupération de connaissances peut être détournée en injectant des instructions dans les documents de récupération. Ces vulnérabilités soulignent que toute extension de la fonctionnalité exposée par une API peut créer de nouvelles failles.

English

Language model attacks typically assume one of two extreme threat models: full white-box access to model weights, or black-box access limited to a text generation API. However, real-world APIs are often more flexible than just text generation: these APIs expose ``gray-box'' access leading to new threat vectors. To explore this, we red-team three new functionalities exposed in the GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that fine-tuning a model on as few as 15 harmful examples or 100 benign examples can remove core safeguards from GPT-4, enabling a range of harmful outputs. Furthermore, we find that GPT-4 Assistants readily divulge the function call schema and can be made to execute arbitrary function calls. Finally, we find that knowledge retrieval can be hijacked by injecting instructions into retrieval documents. These vulnerabilities highlight that any additions to the functionality exposed by an API can create new vulnerabilities.

Exploitation des nouvelles API de GPT-4

Exploiting Novel GPT-4 APIs

papers.abstract

Support