大規模言語モデルに対する検出回避技術
Detection Avoidance Techniques for Large Language Models
March 10, 2025
著者: Sinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek
cs.AI
要旨
大規模言語モデルの普及が進むにつれ、その広範な利用が進む一方で、偽ニュースの体系的拡散といった様々なリスクも生じている。その結果、DetectGPTのような分類システムの開発が重要となっている。これらの検出器は回避技術に対して脆弱であり、一連の実験でそのことが示された。生成モデルの温度を体系的に変更することで、浅い学習ベースの検出器が最も信頼性が低いことが証明された。強化学習による生成モデルの微調整は、BERTベースの検出器を回避した。最後に、言い換えを行うことで、DetectGPTのようなゼロショット検出器の90%以上を回避することができたが、テキストは元のものと非常に類似したままだった。既存の研究との比較により、提示された手法の優れた性能が強調されている。社会への影響や今後の研究の可能性についても議論されている。
English
The increasing popularity of large language models has not only led to
widespread use but has also brought various risks, including the potential for
systematically spreading fake news. Consequently, the development of
classification systems such as DetectGPT has become vital. These detectors are
vulnerable to evasion techniques, as demonstrated in an experimental series:
Systematic changes of the generative models' temperature proofed shallow
learning-detectors to be the least reliable. Fine-tuning the generative model
via reinforcement learning circumvented BERT-based-detectors. Finally,
rephrasing led to a >90\% evasion of zero-shot-detectors like DetectGPT,
although texts stayed highly similar to the original. A comparison with
existing work highlights the better performance of the presented methods.
Possible implications for society and further research are discussed.Summary
AI-Generated Summary