Атаки на детекторы машинного текста сохраняют стилистические отпечатки

Аннотация

Несмотря на значительный прогресс в разработке детекторов машинного текста, легкость, с которой машинный текст может быть изменен для уклонения от обнаружения, привела к предположениям, что эта проблема принципиально неразрешима. В данной работе мы исследуем пределы подобных стратегий уклонения. Мы показываем, что хотя текущие атаки, от инженерии запросов до оптимизации под руководством детектора, могут эффективно ухудшать производительность стандартных детекторов, они не способны стереть лежащие в основе стилистические «отпечатки» машинного текста. Мы демонстрируем, что детекторы с малым количеством примеров, использующие пространство стилистических признаков, устойчивы к этим попыткам уклонения, надежно обнаруживая образцы даже от моделей, явно настроенных на предотвращение обнаружения. Это поднимает вопрос: представляет ли стиль универсальную защиту от атак на обнаружение машинного текста? Мы показываем, что ответ «нет», вводя новый подход перефразирования, который одновременно оптимизирует необнаруживаемость и соответствие конкретным человеческим стилям. Мы показываем, что в отличие от предыдущих методов, эта атака эффективно обходит все рассмотренные детекторы, включая те, которые используют стиль письма. Однако мы обнаруживаем, что это уклонение не является абсолютным: по мере увеличения количества документов, доступных для анализа, распределения человеческого и машинного текста снова становятся различимыми. В целом, наши результаты показывают, что надежное обнаружение машинного текста требует перехода от анализа одного документа к анализу множества документов.

English

Despite considerable progress in the development of machine-text detectors, the ease with which machine-text can be manipulated to evade detection has led to suggestions that the problem is inherently intractable. In this work, we investigate the limits of such evasion strategies. We demonstrate that while current attacks, ranging from prompt engineering to detector-guided optimization can effectively degrade performance of standard detectors, they fail to erase the underlying stylistic "fingerprints" of machine text. We show that few-shot detectors that utilize the stylistic feature space are robust to these evasion attempts, reliably detecting samples even from models explicitly tuned to prevent detection. This raises the question: does style represent a universal defense against machine-detection attacks? We demonstrate that the answer is "no'' by introducing a novel paraphrasing approach that simultaneously optimizes for undetectability and adherence to specific human styles. We show that unlike prior methods, this attack effectively evades all considered detectors, including those that utilize writing style. However, we find that this evasion is not absolute: as the number of documents available for analysis grows, the human and machine distributions become distinguishable again. Overall, our findings suggest that reliable machine-text detection requires moving beyond single-document analysis to multi-document analysis.