Стресс-тестирование обнаружения машинно-сгенерированного текста: изменение стиля написания языковых моделей для обмана детекторов
Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors
May 30, 2025
Авторы: Andrea Pedrotti, Michele Papucci, Cristiano Ciaccio, Alessio Miaschi, Giovanni Puccetti, Felice Dell'Orletta, Andrea Esuli
cs.AI
Аннотация
Последние достижения в области генеративного искусственного интеллекта и крупных языковых моделей (LLM) позволили создавать высокореалистичный синтетический контент, что вызывает опасения относительно его потенциального злонамеренного использования, такого как дезинформация и манипуляции. Более того, обнаружение машинно-сгенерированного текста (MGT) остается сложной задачей из-за отсутствия надежных эталонных тестов, оценивающих обобщение на реальные сценарии. В данной работе мы представляем подход для проверки устойчивости современных детекторов MGT (например, Mage, Radar, LLM-DetectAIve) к лингвистически обоснованным атакам. Чтобы усложнить задачу детекторам, мы дообучаем языковые модели с использованием оптимизации прямых предпочтений (DPO), чтобы сместить стиль MGT в сторону текстов, написанных человеком (HWT). Это эксплуатирует зависимость детекторов от стилистических подсказок, делая новые поколения текстов более сложными для обнаружения. Кроме того, мы анализируем лингвистические изменения, вызванные выравниванием, и какие признаки используются детекторами для выявления MGT. Наши результаты показывают, что детекторы могут быть легко обмануты с использованием относительно небольшого количества примеров, что приводит к значительному снижению производительности обнаружения. Это подчеркивает важность улучшения методов обнаружения и повышения их устойчивости к незнакомым текстам в рамках той же предметной области.
English
Recent advancements in Generative AI and Large Language Models (LLMs) have
enabled the creation of highly realistic synthetic content, raising concerns
about the potential for malicious use, such as misinformation and manipulation.
Moreover, detecting Machine-Generated Text (MGT) remains challenging due to the
lack of robust benchmarks that assess generalization to real-world scenarios.
In this work, we present a pipeline to test the resilience of state-of-the-art
MGT detectors (e.g., Mage, Radar, LLM-DetectAIve) to linguistically informed
adversarial attacks. To challenge the detectors, we fine-tune language models
using Direct Preference Optimization (DPO) to shift the MGT style toward
human-written text (HWT). This exploits the detectors' reliance on stylistic
clues, making new generations more challenging to detect. Additionally, we
analyze the linguistic shifts induced by the alignment and which features are
used by detectors to detect MGT texts. Our results show that detectors can be
easily fooled with relatively few examples, resulting in a significant drop in
detection performance. This highlights the importance of improving detection
methods and making them robust to unseen in-domain texts.