Методы уклонения от обнаружения для больших языковых моделей
Detection Avoidance Techniques for Large Language Models
March 10, 2025
Авторы: Sinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek
cs.AI
Аннотация
Растущая популярность крупных языковых моделей не только привела к их широкому использованию, но и породила различные риски, включая возможность систематического распространения фейковых новостей. В связи с этим разработка систем классификации, таких как DetectGPT, стала крайне важной. Однако эти детекторы уязвимы к методам обхода, что было продемонстрировано в серии экспериментов: систематическое изменение температуры генеративных моделей показало, что детекторы, основанные на поверхностном обучении, являются наименее надежными. Тонкая настройка генеративной модели с помощью обучения с подкреплением позволила обойти детекторы на основе BERT. Наконец, перефразирование привело к обходу более чем 90\% детекторов с нулевым обучением, таких как DetectGPT, хотя тексты оставались весьма схожими с оригинальными. Сравнение с существующими работами подчеркивает более высокую производительность представленных методов. Обсуждаются возможные последствия для общества и направления дальнейших исследований.
English
The increasing popularity of large language models has not only led to
widespread use but has also brought various risks, including the potential for
systematically spreading fake news. Consequently, the development of
classification systems such as DetectGPT has become vital. These detectors are
vulnerable to evasion techniques, as demonstrated in an experimental series:
Systematic changes of the generative models' temperature proofed shallow
learning-detectors to be the least reliable. Fine-tuning the generative model
via reinforcement learning circumvented BERT-based-detectors. Finally,
rephrasing led to a >90\% evasion of zero-shot-detectors like DetectGPT,
although texts stayed highly similar to the original. A comparison with
existing work highlights the better performance of the presented methods.
Possible implications for society and further research are discussed.Summary
AI-Generated Summary