Técnicas de Evasión de Detección para Modelos de Lenguaje a Gran Escala

Resumen

La creciente popularidad de los modelos de lenguaje de gran escala no solo ha llevado a su uso generalizado, sino que también ha traído consigo diversos riesgos, incluida la posibilidad de difundir noticias falsas de manera sistemática. En consecuencia, el desarrollo de sistemas de clasificación como DetectGPT se ha vuelto fundamental. Estos detectores son vulnerables a técnicas de evasión, como se demostró en una serie de experimentos: los cambios sistemáticos en la temperatura de los modelos generativos demostraron que los detectores basados en aprendizaje superficial son los menos confiables. El ajuste fino del modelo generativo mediante aprendizaje por refuerzo eludió a los detectores basados en BERT. Finalmente, la reformulación de textos permitió una evasión superior al 90\% de detectores de tipo zero-shot como DetectGPT, aunque los textos mantuvieron una alta similitud con los originales. Una comparación con trabajos existentes destaca el mejor rendimiento de los métodos presentados. Se discuten las posibles implicaciones para la sociedad y futuras investigaciones.

English

The increasing popularity of large language models has not only led to widespread use but has also brought various risks, including the potential for systematically spreading fake news. Consequently, the development of classification systems such as DetectGPT has become vital. These detectors are vulnerable to evasion techniques, as demonstrated in an experimental series: Systematic changes of the generative models' temperature proofed shallow learning-detectors to be the least reliable. Fine-tuning the generative model via reinforcement learning circumvented BERT-based-detectors. Finally, rephrasing led to a >90\% evasion of zero-shot-detectors like DetectGPT, although texts stayed highly similar to the original. A comparison with existing work highlights the better performance of the presented methods. Possible implications for society and further research are discussed.

Técnicas de Evasión de Detección para Modelos de Lenguaje a Gran Escala

Detection Avoidance Techniques for Large Language Models

Resumen

Support