Técnicas de Evasión de Detección para Modelos de Lenguaje a Gran Escala
Detection Avoidance Techniques for Large Language Models
March 10, 2025
Autores: Sinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek
cs.AI
Resumen
La creciente popularidad de los modelos de lenguaje de gran escala no solo ha llevado a su uso generalizado, sino que también ha traído consigo diversos riesgos, incluida la posibilidad de difundir noticias falsas de manera sistemática. En consecuencia, el desarrollo de sistemas de clasificación como DetectGPT se ha vuelto fundamental. Estos detectores son vulnerables a técnicas de evasión, como se demostró en una serie de experimentos: los cambios sistemáticos en la temperatura de los modelos generativos demostraron que los detectores basados en aprendizaje superficial son los menos confiables. El ajuste fino del modelo generativo mediante aprendizaje por refuerzo eludió a los detectores basados en BERT. Finalmente, la reformulación de textos permitió una evasión superior al 90\% de detectores de tipo zero-shot como DetectGPT, aunque los textos mantuvieron una alta similitud con los originales. Una comparación con trabajos existentes destaca el mejor rendimiento de los métodos presentados. Se discuten las posibles implicaciones para la sociedad y futuras investigaciones.
English
The increasing popularity of large language models has not only led to
widespread use but has also brought various risks, including the potential for
systematically spreading fake news. Consequently, the development of
classification systems such as DetectGPT has become vital. These detectors are
vulnerable to evasion techniques, as demonstrated in an experimental series:
Systematic changes of the generative models' temperature proofed shallow
learning-detectors to be the least reliable. Fine-tuning the generative model
via reinforcement learning circumvented BERT-based-detectors. Finally,
rephrasing led to a >90\% evasion of zero-shot-detectors like DetectGPT,
although texts stayed highly similar to the original. A comparison with
existing work highlights the better performance of the presented methods.
Possible implications for society and further research are discussed.Summary
AI-Generated Summary