Test de résistance de la détection de texte généré par machine : Modifier le style d'écriture des modèles de langage pour tromper les détecteurs

papers.abstract

Les récentes avancées en matière d'IA générative et de modèles de langage à grande échelle (LLMs) ont permis la création de contenus synthétiques hautement réalistes, suscitant des inquiétudes quant à leur utilisation malveillante, telle que la désinformation et la manipulation. Par ailleurs, la détection de textes générés par machine (MGT) reste un défi en raison du manque de benchmarks robustes évaluant la généralisation à des scénarios réels. Dans ce travail, nous présentons une pipeline pour tester la résilience des détecteurs de MGT de pointe (par exemple, Mage, Radar, LLM-DetectAIve) face à des attaques adverses linguistiquement informées. Pour mettre ces détecteurs à l'épreuve, nous affinons des modèles de langage en utilisant l'Optimisation Directe des Préférences (DPO) afin de rapprocher le style des MGT de celui des textes rédigés par des humains (HWT). Cela exploite la dépendance des détecteurs aux indices stylistiques, rendant les nouvelles générations plus difficiles à détecter. De plus, nous analysons les changements linguistiques induits par cet alignement et les caractéristiques utilisées par les détecteurs pour identifier les textes MGT. Nos résultats montrent que les détecteurs peuvent être facilement trompés avec relativement peu d'exemples, entraînant une baisse significative des performances de détection. Cela souligne l'importance d'améliorer les méthodes de détection et de les rendre robustes face à des textes inédits dans le domaine.

English

Recent advancements in Generative AI and Large Language Models (LLMs) have enabled the creation of highly realistic synthetic content, raising concerns about the potential for malicious use, such as misinformation and manipulation. Moreover, detecting Machine-Generated Text (MGT) remains challenging due to the lack of robust benchmarks that assess generalization to real-world scenarios. In this work, we present a pipeline to test the resilience of state-of-the-art MGT detectors (e.g., Mage, Radar, LLM-DetectAIve) to linguistically informed adversarial attacks. To challenge the detectors, we fine-tune language models using Direct Preference Optimization (DPO) to shift the MGT style toward human-written text (HWT). This exploits the detectors' reliance on stylistic clues, making new generations more challenging to detect. Additionally, we analyze the linguistic shifts induced by the alignment and which features are used by detectors to detect MGT texts. Our results show that detectors can be easily fooled with relatively few examples, resulting in a significant drop in detection performance. This highlights the importance of improving detection methods and making them robust to unseen in-domain texts.

Test de résistance de la détection de texte généré par machine : Modifier le style d'écriture des modèles de langage pour tromper les détecteurs

Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors

papers.abstract

Support