Testes de Estresse na Detecção de Texto Gerado por Máquina: Alterando o Estilo de Escrita dos Modelos de Linguagem para Enganar Detectores
Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors
May 30, 2025
Autores: Andrea Pedrotti, Michele Papucci, Cristiano Ciaccio, Alessio Miaschi, Giovanni Puccetti, Felice Dell'Orletta, Andrea Esuli
cs.AI
Resumo
Os recentes avanços em IA Generativa e Modelos de Linguagem de Grande Escala (LLMs) têm possibilitado a criação de conteúdo sintético altamente realista, levantando preocupações sobre o potencial de uso malicioso, como desinformação e manipulação. Além disso, a detecção de Texto Gerado por Máquina (MGT) continua desafiadora devido à falta de benchmarks robustos que avaliem a generalização para cenários do mundo real. Neste trabalho, apresentamos um pipeline para testar a resiliência de detectores de MGT de última geração (por exemplo, Mage, Radar, LLM-DetectAIve) a ataques adversários linguisticamente informados. Para desafiar os detectores, ajustamos finamente modelos de linguagem usando Otimização de Preferência Direta (DPO) para deslocar o estilo do MGT em direção ao texto escrito por humanos (HWT). Isso explora a dependência dos detectores em pistas estilísticas, tornando as novas gerações mais difíceis de detectar. Adicionalmente, analisamos as mudanças linguísticas induzidas pelo alinhamento e quais características são utilizadas pelos detectores para identificar textos MGT. Nossos resultados mostram que os detectores podem ser facilmente enganados com relativamente poucos exemplos, resultando em uma queda significativa no desempenho de detecção. Isso destaca a importância de aprimorar os métodos de detecção e torná-los robustos a textos inéditos dentro do domínio.
English
Recent advancements in Generative AI and Large Language Models (LLMs) have
enabled the creation of highly realistic synthetic content, raising concerns
about the potential for malicious use, such as misinformation and manipulation.
Moreover, detecting Machine-Generated Text (MGT) remains challenging due to the
lack of robust benchmarks that assess generalization to real-world scenarios.
In this work, we present a pipeline to test the resilience of state-of-the-art
MGT detectors (e.g., Mage, Radar, LLM-DetectAIve) to linguistically informed
adversarial attacks. To challenge the detectors, we fine-tune language models
using Direct Preference Optimization (DPO) to shift the MGT style toward
human-written text (HWT). This exploits the detectors' reliance on stylistic
clues, making new generations more challenging to detect. Additionally, we
analyze the linguistic shifts induced by the alignment and which features are
used by detectors to detect MGT texts. Our results show that detectors can be
easily fooled with relatively few examples, resulting in a significant drop in
detection performance. This highlights the importance of improving detection
methods and making them robust to unseen in-domain texts.