Técnicas de Evasão de Detecção para Modelos de Linguagem de Grande Escala
Detection Avoidance Techniques for Large Language Models
March 10, 2025
Autores: Sinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek
cs.AI
Resumo
A crescente popularidade dos grandes modelos de linguagem não apenas levou ao uso generalizado, mas também trouxe diversos riscos, incluindo o potencial de disseminação sistemática de notícias falsas. Consequentemente, o desenvolvimento de sistemas de classificação, como o DetectGPT, tornou-se essencial. Esses detectores são vulneráveis a técnicas de evasão, conforme demonstrado em uma série de experimentos: mudanças sistemáticas na temperatura dos modelos generativos mostraram que os detectores baseados em aprendizado superficial são os menos confiáveis. O ajuste fino do modelo generativo por meio de aprendizado por reforço conseguiu contornar detectores baseados em BERT. Por fim, a reformulação do texto resultou em uma evasão superior a 90% de detectores zero-shot como o DetectGPT, embora os textos permanecessem altamente semelhantes aos originais. Uma comparação com trabalhos existentes destaca o melhor desempenho dos métodos apresentados. Possíveis implicações para a sociedade e pesquisas futuras são discutidas.
English
The increasing popularity of large language models has not only led to
widespread use but has also brought various risks, including the potential for
systematically spreading fake news. Consequently, the development of
classification systems such as DetectGPT has become vital. These detectors are
vulnerable to evasion techniques, as demonstrated in an experimental series:
Systematic changes of the generative models' temperature proofed shallow
learning-detectors to be the least reliable. Fine-tuning the generative model
via reinforcement learning circumvented BERT-based-detectors. Finally,
rephrasing led to a >90\% evasion of zero-shot-detectors like DetectGPT,
although texts stayed highly similar to the original. A comparison with
existing work highlights the better performance of the presented methods.
Possible implications for society and further research are discussed.Summary
AI-Generated Summary