ChatPaper.aiChatPaper

Détection efficace des prompts toxiques dans les grands modèles de langage

Efficient Detection of Toxic Prompts in Large Language Models

August 21, 2024
Auteurs: Yi Liu, Junzhe Yu, Huijia Sun, Ling Shi, Gelei Deng, Yuqi Chen, Yang Liu
cs.AI

Résumé

Les grands modèles de langage (LLM) tels que ChatGPT et Gemini ont considérablement fait progresser le traitement automatique du langage naturel, permettant diverses applications telles que les chatbots et la génération de contenu automatisée. Cependant, ces modèles peuvent être exploités par des individus malveillants qui créent des invitations toxiques pour susciter des réponses nuisibles ou non éthiques. Ces individus utilisent souvent des techniques de contournement pour outrepasser les mécanismes de sécurité, soulignant ainsi le besoin de méthodes robustes de détection des invitations toxiques. Les techniques de détection existantes, qu'elles soient boîte noire ou boîte blanche, rencontrent des défis liés à la diversité des invitations toxiques, à la scalabilité et à l'efficacité computationnelle. En réponse, nous proposons ToxicDetector, une méthode grise légère conçue pour détecter efficacement les invitations toxiques dans les LLM. ToxicDetector exploite les LLM pour créer des invitations de concepts toxiques, utilise des vecteurs d'incorporation pour former des vecteurs de caractéristiques, et utilise un classifieur Multi-Layer Perceptron (MLP) pour la classification des invitations. Notre évaluation sur diverses versions des modèles LLama, Gemma-2, et plusieurs ensembles de données démontre que ToxicDetector atteint une précision élevée de 96,39\% et un faible taux de faux positifs de 2,00\%, surpassant les méthodes de pointe. De plus, le temps de traitement de ToxicDetector de 0,0780 seconde par invitation le rend très adapté aux applications en temps réel. ToxicDetector atteint une haute précision, efficacité et scalabilité, en faisant une méthode pratique pour la détection des invitations toxiques dans les LLM.
English
Large language models (LLMs) like ChatGPT and Gemini have significantly advanced natural language processing, enabling various applications such as chatbots and automated content generation. However, these models can be exploited by malicious individuals who craft toxic prompts to elicit harmful or unethical responses. These individuals often employ jailbreaking techniques to bypass safety mechanisms, highlighting the need for robust toxic prompt detection methods. Existing detection techniques, both blackbox and whitebox, face challenges related to the diversity of toxic prompts, scalability, and computational efficiency. In response, we propose ToxicDetector, a lightweight greybox method designed to efficiently detect toxic prompts in LLMs. ToxicDetector leverages LLMs to create toxic concept prompts, uses embedding vectors to form feature vectors, and employs a Multi-Layer Perceptron (MLP) classifier for prompt classification. Our evaluation on various versions of the LLama models, Gemma-2, and multiple datasets demonstrates that ToxicDetector achieves a high accuracy of 96.39\% and a low false positive rate of 2.00\%, outperforming state-of-the-art methods. Additionally, ToxicDetector's processing time of 0.0780 seconds per prompt makes it highly suitable for real-time applications. ToxicDetector achieves high accuracy, efficiency, and scalability, making it a practical method for toxic prompt detection in LLMs.

Summary

AI-Generated Summary

PDF134November 16, 2024