Détection efficace des prompts toxiques dans les grands modèles de langage
Efficient Detection of Toxic Prompts in Large Language Models
August 21, 2024
Auteurs: Yi Liu, Junzhe Yu, Huijia Sun, Ling Shi, Gelei Deng, Yuqi Chen, Yang Liu
cs.AI
Résumé
Les grands modèles de langage (LLM) tels que ChatGPT et Gemini ont considérablement fait progresser le traitement automatique du langage naturel, permettant diverses applications telles que les chatbots et la génération de contenu automatisée. Cependant, ces modèles peuvent être exploités par des individus malveillants qui créent des invitations toxiques pour susciter des réponses nuisibles ou non éthiques. Ces individus utilisent souvent des techniques de contournement pour outrepasser les mécanismes de sécurité, soulignant ainsi le besoin de méthodes robustes de détection des invitations toxiques. Les techniques de détection existantes, qu'elles soient boîte noire ou boîte blanche, rencontrent des défis liés à la diversité des invitations toxiques, à la scalabilité et à l'efficacité computationnelle. En réponse, nous proposons ToxicDetector, une méthode grise légère conçue pour détecter efficacement les invitations toxiques dans les LLM. ToxicDetector exploite les LLM pour créer des invitations de concepts toxiques, utilise des vecteurs d'incorporation pour former des vecteurs de caractéristiques, et utilise un classifieur Multi-Layer Perceptron (MLP) pour la classification des invitations. Notre évaluation sur diverses versions des modèles LLama, Gemma-2, et plusieurs ensembles de données démontre que ToxicDetector atteint une précision élevée de 96,39\% et un faible taux de faux positifs de 2,00\%, surpassant les méthodes de pointe. De plus, le temps de traitement de ToxicDetector de 0,0780 seconde par invitation le rend très adapté aux applications en temps réel. ToxicDetector atteint une haute précision, efficacité et scalabilité, en faisant une méthode pratique pour la détection des invitations toxiques dans les LLM.
English
Large language models (LLMs) like ChatGPT and Gemini have significantly
advanced natural language processing, enabling various applications such as
chatbots and automated content generation. However, these models can be
exploited by malicious individuals who craft toxic prompts to elicit harmful or
unethical responses. These individuals often employ jailbreaking techniques to
bypass safety mechanisms, highlighting the need for robust toxic prompt
detection methods. Existing detection techniques, both blackbox and whitebox,
face challenges related to the diversity of toxic prompts, scalability, and
computational efficiency. In response, we propose ToxicDetector, a lightweight
greybox method designed to efficiently detect toxic prompts in LLMs.
ToxicDetector leverages LLMs to create toxic concept prompts, uses embedding
vectors to form feature vectors, and employs a Multi-Layer Perceptron (MLP)
classifier for prompt classification. Our evaluation on various versions of the
LLama models, Gemma-2, and multiple datasets demonstrates that ToxicDetector
achieves a high accuracy of 96.39\% and a low false positive rate of 2.00\%,
outperforming state-of-the-art methods. Additionally, ToxicDetector's
processing time of 0.0780 seconds per prompt makes it highly suitable for
real-time applications. ToxicDetector achieves high accuracy, efficiency, and
scalability, making it a practical method for toxic prompt detection in LLMs.Summary
AI-Generated Summary