Detecção Eficiente de Sugestões Tóxicas em Modelos de Linguagem de Grande Escala

Resumo

Grandes modelos de linguagem (LLMs) como o ChatGPT e o Gemini avançaram significativamente o processamento de linguagem natural, possibilitando diversas aplicações como chatbots e geração automatizada de conteúdo. No entanto, esses modelos podem ser explorados por indivíduos maliciosos que criam prompts tóxicas para obter respostas prejudiciais ou antiéticas. Esses indivíduos frequentemente empregam técnicas de jailbreaking para contornar os mecanismos de segurança, destacando a necessidade de métodos robustos de detecção de prompts tóxicos. As técnicas de detecção existentes, tanto blackbox quanto whitebox, enfrentam desafios relacionados à diversidade de prompts tóxicos, escalabilidade e eficiência computacional. Em resposta, propomos o ToxicDetector, um método greybox leve projetado para detectar eficientemente prompts tóxicos em LLMs. O ToxicDetector aproveita LLMs para criar prompts de conceitos tóxicos, utiliza vetores de incorporação para formar vetores de características e emprega um classificador Multi-Layer Perceptron (MLP) para a classificação de prompts. Nossa avaliação em várias versões dos modelos LLama, Gemma-2 e múltiplos conjuntos de dados demonstra que o ToxicDetector alcança uma alta precisão de 96,39\% e uma baixa taxa de falsos positivos de 2,00\%, superando os métodos de ponta. Além disso, o tempo de processamento do ToxicDetector de 0,0780 segundos por prompt o torna altamente adequado para aplicações em tempo real. O ToxicDetector alcança alta precisão, eficiência e escalabilidade, tornando-o um método prático para a detecção de prompts tóxicos em LLMs.

English

Large language models (LLMs) like ChatGPT and Gemini have significantly advanced natural language processing, enabling various applications such as chatbots and automated content generation. However, these models can be exploited by malicious individuals who craft toxic prompts to elicit harmful or unethical responses. These individuals often employ jailbreaking techniques to bypass safety mechanisms, highlighting the need for robust toxic prompt detection methods. Existing detection techniques, both blackbox and whitebox, face challenges related to the diversity of toxic prompts, scalability, and computational efficiency. In response, we propose ToxicDetector, a lightweight greybox method designed to efficiently detect toxic prompts in LLMs. ToxicDetector leverages LLMs to create toxic concept prompts, uses embedding vectors to form feature vectors, and employs a Multi-Layer Perceptron (MLP) classifier for prompt classification. Our evaluation on various versions of the LLama models, Gemma-2, and multiple datasets demonstrates that ToxicDetector achieves a high accuracy of 96.39\% and a low false positive rate of 2.00\%, outperforming state-of-the-art methods. Additionally, ToxicDetector's processing time of 0.0780 seconds per prompt makes it highly suitable for real-time applications. ToxicDetector achieves high accuracy, efficiency, and scalability, making it a practical method for toxic prompt detection in LLMs.

Detecção Eficiente de Sugestões Tóxicas em Modelos de Linguagem de Grande Escala

Efficient Detection of Toxic Prompts in Large Language Models

Resumo

Summary

Support

Support