Exploitation des nouvelles API de GPT-4
Exploiting Novel GPT-4 APIs
December 21, 2023
Auteurs: Kellin Pelrine, Mohammad Taufeeque, Michał Zając, Euan McLean, Adam Gleave
cs.AI
Résumé
Les attaques sur les modèles de langage supposent généralement l'un des deux modèles de menace extrêmes : un accès complet en boîte blanche aux poids du modèle, ou un accès en boîte noire limité à une API de génération de texte. Cependant, les API du monde réel sont souvent plus flexibles que la simple génération de texte : ces API exposent un accès en « boîte grise » ouvrant la voie à de nouveaux vecteurs de menace. Pour explorer cela, nous avons testé en mode red team trois nouvelles fonctionnalités exposées dans les API de GPT-4 : le fine-tuning, l'appel de fonctions et la récupération de connaissances. Nous constatons que le fine-tuning d'un modèle sur aussi peu que 15 exemples nuisibles ou 100 exemples bénins peut supprimer les protections essentielles de GPT-4, permettant une gamme de sorties nuisibles. De plus, nous observons que les Assistants GPT-4 divulguent facilement le schéma d'appel de fonctions et peuvent être amenés à exécuter des appels de fonctions arbitraires. Enfin, nous constatons que la récupération de connaissances peut être détournée en injectant des instructions dans les documents de récupération. Ces vulnérabilités soulignent que toute extension de la fonctionnalité exposée par une API peut créer de nouvelles failles.
English
Language model attacks typically assume one of two extreme threat models:
full white-box access to model weights, or black-box access limited to a text
generation API. However, real-world APIs are often more flexible than just text
generation: these APIs expose ``gray-box'' access leading to new threat
vectors. To explore this, we red-team three new functionalities exposed in the
GPT-4 APIs: fine-tuning, function calling and knowledge retrieval. We find that
fine-tuning a model on as few as 15 harmful examples or 100 benign examples can
remove core safeguards from GPT-4, enabling a range of harmful outputs.
Furthermore, we find that GPT-4 Assistants readily divulge the function call
schema and can be made to execute arbitrary function calls. Finally, we find
that knowledge retrieval can be hijacked by injecting instructions into
retrieval documents. These vulnerabilities highlight that any additions to the
functionality exposed by an API can create new vulnerabilities.