Techniques d'évitement de détection pour les grands modèles de langage
Detection Avoidance Techniques for Large Language Models
March 10, 2025
Auteurs: Sinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek
cs.AI
Résumé
La popularité croissante des grands modèles de langage a non seulement conduit à une utilisation généralisée, mais a également engendré divers risques, notamment la possibilité de propager systématiquement de fausses informations. Par conséquent, le développement de systèmes de classification tels que DetectGPT est devenu essentiel. Ces détecteurs sont vulnérables aux techniques d'évasion, comme le démontre une série d'expériences : des modifications systématiques de la température des modèles génératifs ont révélé que les détecteurs basés sur un apprentissage superficiel étaient les moins fiables. L'affinement du modèle génératif via l'apprentissage par renforcement a permis de contourner les détecteurs basés sur BERT. Enfin, la reformulation a entraîné une évasion de plus de 90 % des détecteurs zero-shot comme DetectGPT, bien que les textes soient restés très similaires à l'original. Une comparaison avec les travaux existants met en évidence la meilleure performance des méthodes présentées. Les implications possibles pour la société et les recherches futures sont discutées.
English
The increasing popularity of large language models has not only led to
widespread use but has also brought various risks, including the potential for
systematically spreading fake news. Consequently, the development of
classification systems such as DetectGPT has become vital. These detectors are
vulnerable to evasion techniques, as demonstrated in an experimental series:
Systematic changes of the generative models' temperature proofed shallow
learning-detectors to be the least reliable. Fine-tuning the generative model
via reinforcement learning circumvented BERT-based-detectors. Finally,
rephrasing led to a >90\% evasion of zero-shot-detectors like DetectGPT,
although texts stayed highly similar to the original. A comparison with
existing work highlights the better performance of the presented methods.
Possible implications for society and further research are discussed.Summary
AI-Generated Summary