Efficiënte Detectie van Giftige Prompts in Grote Taalmodellen
Efficient Detection of Toxic Prompts in Large Language Models
August 21, 2024
Auteurs: Yi Liu, Junzhe Yu, Huijia Sun, Ling Shi, Gelei Deng, Yuqi Chen, Yang Liu
cs.AI
Samenvatting
Grote taalmodellen (LLMs) zoals ChatGPT en Gemini hebben aanzienlijke vooruitgang geboekt in natuurlijke taalverwerking, wat diverse toepassingen mogelijk maakt, zoals chatbots en geautomatiseerde inhoudsgeneratie. Deze modellen kunnen echter worden misbruikt door kwaadwillenden die giftige prompts creëren om schadelijke of onethische reacties uit te lokken. Deze individuen gebruiken vaak jailbreaking-technieken om veiligheidsmechanismen te omzeilen, wat de noodzaak onderstreept van robuuste methoden voor het detecteren van giftige prompts. Bestaande detectietechnieken, zowel blackbox als whitebox, kampen met uitdagingen op het gebied van de diversiteit van giftige prompts, schaalbaarheid en rekenkundige efficiëntie. Als reactie hierop stellen wij ToxicDetector voor, een lichtgewicht greybox-methode die is ontworpen om giftige prompts in LLMs efficiënt te detecteren. ToxicDetector maakt gebruik van LLMs om giftige conceptprompts te creëren, gebruikt embeddingvectoren om kenmerkvectoren te vormen en zet een Multi-Layer Perceptron (MLP)-classificator in voor de classificatie van prompts. Onze evaluatie op verschillende versies van de LLama-modellen, Gemma-2 en meerdere datasets toont aan dat ToxicDetector een hoge nauwkeurigheid van 96,39\% en een laag fout-positief percentage van 2,00\% bereikt, wat beter is dan state-of-the-art methoden. Bovendien maakt de verwerkingstijd van 0,0780 seconden per prompt ToxicDetector zeer geschikt voor realtime toepassingen. ToxicDetector combineert hoge nauwkeurigheid, efficiëntie en schaalbaarheid, waardoor het een praktische methode is voor het detecteren van giftige prompts in LLMs.
English
Large language models (LLMs) like ChatGPT and Gemini have significantly
advanced natural language processing, enabling various applications such as
chatbots and automated content generation. However, these models can be
exploited by malicious individuals who craft toxic prompts to elicit harmful or
unethical responses. These individuals often employ jailbreaking techniques to
bypass safety mechanisms, highlighting the need for robust toxic prompt
detection methods. Existing detection techniques, both blackbox and whitebox,
face challenges related to the diversity of toxic prompts, scalability, and
computational efficiency. In response, we propose ToxicDetector, a lightweight
greybox method designed to efficiently detect toxic prompts in LLMs.
ToxicDetector leverages LLMs to create toxic concept prompts, uses embedding
vectors to form feature vectors, and employs a Multi-Layer Perceptron (MLP)
classifier for prompt classification. Our evaluation on various versions of the
LLama models, Gemma-2, and multiple datasets demonstrates that ToxicDetector
achieves a high accuracy of 96.39\% and a low false positive rate of 2.00\%,
outperforming state-of-the-art methods. Additionally, ToxicDetector's
processing time of 0.0780 seconds per prompt makes it highly suitable for
real-time applications. ToxicDetector achieves high accuracy, efficiency, and
scalability, making it a practical method for toxic prompt detection in LLMs.Summary
AI-Generated Summary