Tecniche di Evasione del Rilevamento per Modelli Linguistici di Grande Dimensione
Detection Avoidance Techniques for Large Language Models
March 10, 2025
Autori: Sinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek
cs.AI
Abstract
La crescente popolarità dei modelli linguistici di grandi dimensioni non ha solo portato a un uso diffuso, ma ha anche introdotto vari rischi, tra cui il potenziale di diffondere sistematicamente notizie false. Di conseguenza, lo sviluppo di sistemi di classificazione come DetectGPT è diventato fondamentale. Questi rilevatori sono vulnerabili a tecniche di elusione, come dimostrato in una serie di esperimenti: modifiche sistematiche della temperatura dei modelli generativi hanno dimostrato che i rilevatori basati su apprendimento superficiale sono i meno affidabili. L'ottimizzazione fine del modello generativo tramite apprendimento per rinforzo ha eluso i rilevatori basati su BERT. Infine, la riformulazione ha portato a un'elusione superiore al 90% dei rilevatori zero-shot come DetectGPT, sebbene i testi siano rimasti molto simili all'originale. Un confronto con il lavoro esistente evidenzia la migliore performance dei metodi presentati. Vengono discusse le possibili implicazioni per la società e ulteriori ricerche.
English
The increasing popularity of large language models has not only led to
widespread use but has also brought various risks, including the potential for
systematically spreading fake news. Consequently, the development of
classification systems such as DetectGPT has become vital. These detectors are
vulnerable to evasion techniques, as demonstrated in an experimental series:
Systematic changes of the generative models' temperature proofed shallow
learning-detectors to be the least reliable. Fine-tuning the generative model
via reinforcement learning circumvented BERT-based-detectors. Finally,
rephrasing led to a >90\% evasion of zero-shot-detectors like DetectGPT,
although texts stayed highly similar to the original. A comparison with
existing work highlights the better performance of the presented methods.
Possible implications for society and further research are discussed.Summary
AI-Generated Summary