Ataques a Detectores de Texto de Máquina Retêm Impressões Digitais Estilísticas

Resumo

Apesar do progresso considerável no desenvolvimento de detectores de texto gerado por máquina, a facilidade com que o texto gerado por máquina pode ser manipulado para evadir a detecção levou a sugestões de que o problema é intrinsecamente intratável. Neste trabalho, investigamos os limites de tais estratégias de evasão. Demonstramos que, embora os ataques atuais, desde a engenharia de prompt até a otimização guiada por detector, possam degradar efetivamente o desempenho de detectores padrão, eles não conseguem apagar as subjacentes "impressões digitais" estilísticas do texto de máquina. Mostramos que detectores few-shot que utilizam o espaço de características estilísticas são robustos a essas tentativas de evasão, detectando de forma confiável amostras mesmo de modelos explicitamente ajustados para evitar a detecção. Isso levanta a questão: o estilo representa uma defesa universal contra ataques de detecção de máquina? Demonstramos que a resposta é "não" ao introduzir uma nova abordagem de paráfrase que otimiza simultaneamente a indetectabilidade e a adesão a estilos humanos específicos. Mostramos que, diferentemente dos métodos anteriores, este ataque evade efetivamente todos os detectores considerados, incluindo aqueles que utilizam o estilo de escrita. No entanto, descobrimos que essa evasão não é absoluta: à medida que o número de documentos disponíveis para análise cresce, as distribuições humana e de máquina tornam-se novamente distinguíveis. No geral, nossos achados sugerem que a detecção confiável de texto gerado por máquina requer ir além da análise de um único documento para a análise de múltiplos documentos.

English

Despite considerable progress in the development of machine-text detectors, the ease with which machine-text can be manipulated to evade detection has led to suggestions that the problem is inherently intractable. In this work, we investigate the limits of such evasion strategies. We demonstrate that while current attacks, ranging from prompt engineering to detector-guided optimization can effectively degrade performance of standard detectors, they fail to erase the underlying stylistic "fingerprints" of machine text. We show that few-shot detectors that utilize the stylistic feature space are robust to these evasion attempts, reliably detecting samples even from models explicitly tuned to prevent detection. This raises the question: does style represent a universal defense against machine-detection attacks? We demonstrate that the answer is "no'' by introducing a novel paraphrasing approach that simultaneously optimizes for undetectability and adherence to specific human styles. We show that unlike prior methods, this attack effectively evades all considered detectors, including those that utilize writing style. However, we find that this evasion is not absolute: as the number of documents available for analysis grows, the human and machine distributions become distinguishable again. Overall, our findings suggest that reliable machine-text detection requires moving beyond single-document analysis to multi-document analysis.