Pruebas de estrés en la detección de texto generado por máquinas: Cambiando el estilo de escritura de los modelos de lenguaje para engañar a los detectores
Stress-testing Machine Generated Text Detection: Shifting Language Models Writing Style to Fool Detectors
May 30, 2025
Autores: Andrea Pedrotti, Michele Papucci, Cristiano Ciaccio, Alessio Miaschi, Giovanni Puccetti, Felice Dell'Orletta, Andrea Esuli
cs.AI
Resumen
Los recientes avances en Inteligencia Artificial Generativa y Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) han permitido la creación de contenido sintético altamente realista, lo que ha generado preocupación sobre su uso malintencionado, como la desinformación y la manipulación. Además, la detección de Texto Generado por Máquina (MGT, por sus siglas en inglés) sigue siendo un desafío debido a la falta de puntos de referencia robustos que evalúen la generalización a escenarios del mundo real. En este trabajo, presentamos una metodología para probar la resistencia de los detectores de MGT más avanzados (por ejemplo, Mage, Radar, LLM-DetectAIve) frente a ataques adversarios lingüísticamente informados. Para desafiar a los detectores, ajustamos modelos de lenguaje utilizando Optimización Directa de Preferencias (DPO, por sus siglas en inglés) para acercar el estilo del MGT al texto escrito por humanos (HWT, por sus siglas en inglés). Esto explota la dependencia de los detectores en pistas estilísticas, haciendo que las nuevas generaciones sean más difíciles de detectar. Adicionalmente, analizamos los cambios lingüísticos inducidos por la alineación y qué características utilizan los detectores para identificar textos MGT. Nuestros resultados muestran que los detectores pueden ser engañados fácilmente con relativamente pocos ejemplos, lo que resulta en una caída significativa en el rendimiento de detección. Esto subraya la importancia de mejorar los métodos de detección y hacerlos robustos frente a textos inéditos dentro del dominio.
English
Recent advancements in Generative AI and Large Language Models (LLMs) have
enabled the creation of highly realistic synthetic content, raising concerns
about the potential for malicious use, such as misinformation and manipulation.
Moreover, detecting Machine-Generated Text (MGT) remains challenging due to the
lack of robust benchmarks that assess generalization to real-world scenarios.
In this work, we present a pipeline to test the resilience of state-of-the-art
MGT detectors (e.g., Mage, Radar, LLM-DetectAIve) to linguistically informed
adversarial attacks. To challenge the detectors, we fine-tune language models
using Direct Preference Optimization (DPO) to shift the MGT style toward
human-written text (HWT). This exploits the detectors' reliance on stylistic
clues, making new generations more challenging to detect. Additionally, we
analyze the linguistic shifts induced by the alignment and which features are
used by detectors to detect MGT texts. Our results show that detectors can be
easily fooled with relatively few examples, resulting in a significant drop in
detection performance. This highlights the importance of improving detection
methods and making them robust to unseen in-domain texts.