ChatPaper.aiChatPaper

Методы уклонения от обнаружения для больших языковых моделей

Detection Avoidance Techniques for Large Language Models

March 10, 2025
Авторы: Sinclair Schneider, Florian Steuber, Joao A. G. Schneider, Gabi Dreo Rodosek
cs.AI

Аннотация

Растущая популярность крупных языковых моделей не только привела к их широкому использованию, но и породила различные риски, включая возможность систематического распространения фейковых новостей. В связи с этим разработка систем классификации, таких как DetectGPT, стала крайне важной. Однако эти детекторы уязвимы к методам обхода, что было продемонстрировано в серии экспериментов: систематическое изменение температуры генеративных моделей показало, что детекторы, основанные на поверхностном обучении, являются наименее надежными. Тонкая настройка генеративной модели с помощью обучения с подкреплением позволила обойти детекторы на основе BERT. Наконец, перефразирование привело к обходу более чем 90\% детекторов с нулевым обучением, таких как DetectGPT, хотя тексты оставались весьма схожими с оригинальными. Сравнение с существующими работами подчеркивает более высокую производительность представленных методов. Обсуждаются возможные последствия для общества и направления дальнейших исследований.
English
The increasing popularity of large language models has not only led to widespread use but has also brought various risks, including the potential for systematically spreading fake news. Consequently, the development of classification systems such as DetectGPT has become vital. These detectors are vulnerable to evasion techniques, as demonstrated in an experimental series: Systematic changes of the generative models' temperature proofed shallow learning-detectors to be the least reliable. Fine-tuning the generative model via reinforcement learning circumvented BERT-based-detectors. Finally, rephrasing led to a >90\% evasion of zero-shot-detectors like DetectGPT, although texts stayed highly similar to the original. A comparison with existing work highlights the better performance of the presented methods. Possible implications for society and further research are discussed.

Summary

AI-Generated Summary

PDF41March 11, 2025