Detectievermijdingsmethoden voor Grote Taalmodellen
Detection Avoidance Techniques for Large Language Models
March 10, 2025
Auteurs: Sinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek
cs.AI
Samenvatting
De toenemende populariteit van grote taalmodellen heeft niet alleen geleid tot wijdverbreid gebruik, maar heeft ook verschillende risico's met zich meegebracht, waaronder de mogelijkheid om systematisch nepnieuws te verspreiden. Als gevolg hiervan is de ontwikkeling van classificatiesystemen zoals DetectGPT van cruciaal belang geworden. Deze detectoren zijn kwetsbaar voor ontwijkingstechnieken, zoals aangetoond in een experimentele reeks: systematische aanpassingen van de temperatuur van de generatieve modellen toonden aan dat oppervlakkige leer-detectoren het minst betrouwbaar zijn. Het finetunen van het generatieve model via reinforcement learning omzeilde BERT-gebaseerde detectoren. Tot slot leidde herformulering tot een ontwijking van >90\% van zero-shot-detectoren zoals DetectGPT, hoewel de teksten sterk vergelijkbaar bleven met het origineel. Een vergelijking met bestaand werk benadrukt de betere prestaties van de gepresenteerde methoden. Mogelijke implicaties voor de samenleving en verder onderzoek worden besproken.
English
The increasing popularity of large language models has not only led to
widespread use but has also brought various risks, including the potential for
systematically spreading fake news. Consequently, the development of
classification systems such as DetectGPT has become vital. These detectors are
vulnerable to evasion techniques, as demonstrated in an experimental series:
Systematic changes of the generative models' temperature proofed shallow
learning-detectors to be the least reliable. Fine-tuning the generative model
via reinforcement learning circumvented BERT-based-detectors. Finally,
rephrasing led to a >90\% evasion of zero-shot-detectors like DetectGPT,
although texts stayed highly similar to the original. A comparison with
existing work highlights the better performance of the presented methods.
Possible implications for society and further research are discussed.Summary
AI-Generated Summary