Técnicas de Evasão de Detecção para Modelos de Linguagem de Grande Escala

Resumo

A crescente popularidade dos grandes modelos de linguagem não apenas levou ao uso generalizado, mas também trouxe diversos riscos, incluindo o potencial de disseminação sistemática de notícias falsas. Consequentemente, o desenvolvimento de sistemas de classificação, como o DetectGPT, tornou-se essencial. Esses detectores são vulneráveis a técnicas de evasão, conforme demonstrado em uma série de experimentos: mudanças sistemáticas na temperatura dos modelos generativos mostraram que os detectores baseados em aprendizado superficial são os menos confiáveis. O ajuste fino do modelo generativo por meio de aprendizado por reforço conseguiu contornar detectores baseados em BERT. Por fim, a reformulação do texto resultou em uma evasão superior a 90% de detectores zero-shot como o DetectGPT, embora os textos permanecessem altamente semelhantes aos originais. Uma comparação com trabalhos existentes destaca o melhor desempenho dos métodos apresentados. Possíveis implicações para a sociedade e pesquisas futuras são discutidas.

English

The increasing popularity of large language models has not only led to widespread use but has also brought various risks, including the potential for systematically spreading fake news. Consequently, the development of classification systems such as DetectGPT has become vital. These detectors are vulnerable to evasion techniques, as demonstrated in an experimental series: Systematic changes of the generative models' temperature proofed shallow learning-detectors to be the least reliable. Fine-tuning the generative model via reinforcement learning circumvented BERT-based-detectors. Finally, rephrasing led to a >90\% evasion of zero-shot-detectors like DetectGPT, although texts stayed highly similar to the original. A comparison with existing work highlights the better performance of the presented methods. Possible implications for society and further research are discussed.

Técnicas de Evasão de Detecção para Modelos de Linguagem de Grande Escala

Detection Avoidance Techniques for Large Language Models

Resumo

Summary

Support

Support