Stress-testen van detectie van machinaal gegenereerde tekst: Schrijfstijl van taalmodel aanpassen om detectoren te misleiden

Samenvatting

Recente ontwikkelingen in Generatieve AI en Grote Taalmodellen (LLMs) hebben het mogelijk gemaakt om zeer realistische synthetische content te creëren, wat zorgen oproept over het potentieel voor kwaadwillig gebruik, zoals desinformatie en manipulatie. Bovendien blijft het detecteren van Machine-Gegenereerde Tekst (MGT) een uitdaging vanwege het ontbreken van robuuste benchmarks die de generaliseerbaarheid naar real-world scenario's beoordelen. In dit werk presenteren we een pipeline om de veerkracht van state-of-the-art MGT-detectoren (bijv. Mage, Radar, LLM-DetectAIve) te testen tegen taalkundig geïnformeerde adversariële aanvallen. Om de detectoren uit te dagen, fine-tunen we taalmodellen met behulp van Direct Preference Optimization (DPO) om de MGT-stijl te verschuiven naar door mensen geschreven tekst (HWT). Dit maakt gebruik van de afhankelijkheid van detectoren van stilistische aanwijzingen, waardoor nieuwe generaties moeilijker te detecteren zijn. Daarnaast analyseren we de taalkundige verschuivingen die door de alignment worden veroorzaakt en welke kenmerken door detectoren worden gebruikt om MGT-teksten te detecteren. Onze resultaten laten zien dat detectoren relatief eenvoudig kunnen worden misleid met relatief weinig voorbeelden, wat resulteert in een significante daling in detectieprestaties. Dit benadrukt het belang van het verbeteren van detectiemethoden en het robuust maken ervan tegen ongeziene in-domein teksten.

English

Recent advancements in Generative AI and Large Language Models (LLMs) have enabled the creation of highly realistic synthetic content, raising concerns about the potential for malicious use, such as misinformation and manipulation. Moreover, detecting Machine-Generated Text (MGT) remains challenging due to the lack of robust benchmarks that assess generalization to real-world scenarios. In this work, we present a pipeline to test the resilience of state-of-the-art MGT detectors (e.g., Mage, Radar, LLM-DetectAIve) to linguistically informed adversarial attacks. To challenge the detectors, we fine-tune language models using Direct Preference Optimization (DPO) to shift the MGT style toward human-written text (HWT). This exploits the detectors' reliance on stylistic clues, making new generations more challenging to detect. Additionally, we analyze the linguistic shifts induced by the alignment and which features are used by detectors to detect MGT texts. Our results show that detectors can be easily fooled with relatively few examples, resulting in a significant drop in detection performance. This highlights the importance of improving detection methods and making them robust to unseen in-domain texts.

Stress-testen van detectie van machinaal gegenereerde tekst: Schrijfstijl van taalmodel aanpassen om detectoren te misleiden

Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors

Samenvatting

Support