Методы уклонения от обнаружения для больших языковых моделей

Аннотация

Растущая популярность крупных языковых моделей не только привела к их широкому использованию, но и породила различные риски, включая возможность систематического распространения фейковых новостей. В связи с этим разработка систем классификации, таких как DetectGPT, стала крайне важной. Однако эти детекторы уязвимы к методам обхода, что было продемонстрировано в серии экспериментов: систематическое изменение температуры генеративных моделей показало, что детекторы, основанные на поверхностном обучении, являются наименее надежными. Тонкая настройка генеративной модели с помощью обучения с подкреплением позволила обойти детекторы на основе BERT. Наконец, перефразирование привело к обходу более чем 90\% детекторов с нулевым обучением, таких как DetectGPT, хотя тексты оставались весьма схожими с оригинальными. Сравнение с существующими работами подчеркивает более высокую производительность представленных методов. Обсуждаются возможные последствия для общества и направления дальнейших исследований.

English

The increasing popularity of large language models has not only led to widespread use but has also brought various risks, including the potential for systematically spreading fake news. Consequently, the development of classification systems such as DetectGPT has become vital. These detectors are vulnerable to evasion techniques, as demonstrated in an experimental series: Systematic changes of the generative models' temperature proofed shallow learning-detectors to be the least reliable. Fine-tuning the generative model via reinforcement learning circumvented BERT-based-detectors. Finally, rephrasing led to a >90\% evasion of zero-shot-detectors like DetectGPT, although texts stayed highly similar to the original. A comparison with existing work highlights the better performance of the presented methods. Possible implications for society and further research are discussed.

Методы уклонения от обнаружения для больших языковых моделей

Detection Avoidance Techniques for Large Language Models

Аннотация

Support