Los ataques a los detectores de texto generado por máquina conservan huellas estilísticas

Resumen

A pesar de los avances significativos en el desarrollo de detectores de texto generado por máquinas, la facilidad con la que dicho texto puede ser manipulado para evadir la detección ha llevado a sugerir que el problema es inherentemente intratable. En este trabajo investigamos los límites de dichas estrategias de evasión. Demostramos que, si bien los ataques actuales, que van desde la ingeniería de indicaciones hasta la optimización guiada por detectores, pueden degradar eficazmente el rendimiento de los detectores estándar, no logran eliminar las "huellas dactilares" estilísticas subyacentes del texto generado por máquinas. Mostramos que los detectores con pocos ejemplos que utilizan el espacio de características estilísticas son robustos frente a estos intentos de evasión, detectando de manera fiable incluso muestras provenientes de modelos explícitamente ajustados para evitar la detección. Esto plantea la pregunta: ¿representa el estilo una defensa universal contra los ataques de detección de máquinas? Demostramos que la respuesta es "no" al introducir un novedoso enfoque de paráfrasis que optimiza simultáneamente la indetectabilidad y la adherencia a estilos humanos específicos. Mostramos que, a diferencia de métodos anteriores, este ataque evade eficazmente todos los detectores considerados, incluidos aquellos que utilizan el estilo de escritura. Sin embargo, encontramos que esta evasión no es absoluta: a medida que aumenta el número de documentos disponibles para el análisis, las distribuciones humanas y de máquinas vuelven a ser distinguibles. En conjunto, nuestros hallazgos sugieren que la detección fiable de texto generado por máquinas requiere pasar del análisis de un solo documento al análisis de múltiples documentos.

English

Despite considerable progress in the development of machine-text detectors, the ease with which machine-text can be manipulated to evade detection has led to suggestions that the problem is inherently intractable. In this work, we investigate the limits of such evasion strategies. We demonstrate that while current attacks, ranging from prompt engineering to detector-guided optimization can effectively degrade performance of standard detectors, they fail to erase the underlying stylistic "fingerprints" of machine text. We show that few-shot detectors that utilize the stylistic feature space are robust to these evasion attempts, reliably detecting samples even from models explicitly tuned to prevent detection. This raises the question: does style represent a universal defense against machine-detection attacks? We demonstrate that the answer is "no'' by introducing a novel paraphrasing approach that simultaneously optimizes for undetectability and adherence to specific human styles. We show that unlike prior methods, this attack effectively evades all considered detectors, including those that utilize writing style. However, we find that this evasion is not absolute: as the number of documents available for analysis grows, the human and machine distributions become distinguishable again. Overall, our findings suggest that reliable machine-text detection requires moving beyond single-document analysis to multi-document analysis.