Detecção Eficiente de Sugestões Tóxicas em Modelos de Linguagem de Grande Escala
Efficient Detection of Toxic Prompts in Large Language Models
August 21, 2024
Autores: Yi Liu, Junzhe Yu, Huijia Sun, Ling Shi, Gelei Deng, Yuqi Chen, Yang Liu
cs.AI
Resumo
Grandes modelos de linguagem (LLMs) como o ChatGPT e o Gemini avançaram significativamente o processamento de linguagem natural, possibilitando diversas aplicações como chatbots e geração automatizada de conteúdo. No entanto, esses modelos podem ser explorados por indivíduos maliciosos que criam prompts tóxicas para obter respostas prejudiciais ou antiéticas. Esses indivíduos frequentemente empregam técnicas de jailbreaking para contornar os mecanismos de segurança, destacando a necessidade de métodos robustos de detecção de prompts tóxicos. As técnicas de detecção existentes, tanto blackbox quanto whitebox, enfrentam desafios relacionados à diversidade de prompts tóxicos, escalabilidade e eficiência computacional. Em resposta, propomos o ToxicDetector, um método greybox leve projetado para detectar eficientemente prompts tóxicos em LLMs. O ToxicDetector aproveita LLMs para criar prompts de conceitos tóxicos, utiliza vetores de incorporação para formar vetores de características e emprega um classificador Multi-Layer Perceptron (MLP) para a classificação de prompts. Nossa avaliação em várias versões dos modelos LLama, Gemma-2 e múltiplos conjuntos de dados demonstra que o ToxicDetector alcança uma alta precisão de 96,39\% e uma baixa taxa de falsos positivos de 2,00\%, superando os métodos de ponta. Além disso, o tempo de processamento do ToxicDetector de 0,0780 segundos por prompt o torna altamente adequado para aplicações em tempo real. O ToxicDetector alcança alta precisão, eficiência e escalabilidade, tornando-o um método prático para a detecção de prompts tóxicos em LLMs.
English
Large language models (LLMs) like ChatGPT and Gemini have significantly
advanced natural language processing, enabling various applications such as
chatbots and automated content generation. However, these models can be
exploited by malicious individuals who craft toxic prompts to elicit harmful or
unethical responses. These individuals often employ jailbreaking techniques to
bypass safety mechanisms, highlighting the need for robust toxic prompt
detection methods. Existing detection techniques, both blackbox and whitebox,
face challenges related to the diversity of toxic prompts, scalability, and
computational efficiency. In response, we propose ToxicDetector, a lightweight
greybox method designed to efficiently detect toxic prompts in LLMs.
ToxicDetector leverages LLMs to create toxic concept prompts, uses embedding
vectors to form feature vectors, and employs a Multi-Layer Perceptron (MLP)
classifier for prompt classification. Our evaluation on various versions of the
LLama models, Gemma-2, and multiple datasets demonstrates that ToxicDetector
achieves a high accuracy of 96.39\% and a low false positive rate of 2.00\%,
outperforming state-of-the-art methods. Additionally, ToxicDetector's
processing time of 0.0780 seconds per prompt makes it highly suitable for
real-time applications. ToxicDetector achieves high accuracy, efficiency, and
scalability, making it a practical method for toxic prompt detection in LLMs.Summary
AI-Generated Summary