ChatPaper.aiChatPaper

Detectores de Texto Gerado por Máquina são Ataques de Inferência de Associação.

Machine Text Detectors are Membership Inference Attacks

October 22, 2025
Autores: Ryuto Koike, Liam Dugan, Masahiro Kaneko, Chris Callison-Burch, Naoaki Okazaki
cs.AI

Resumo

Embora os ataques de inferência de associação (MIAs) e a detecção de textos gerados por máquina tenham objetivos diferentes - identificar amostras de treinamento e textos sintéticos, respectivamente - seus métodos frequentemente exploram sinais semelhantes com base na distribuição de probabilidade de um modelo de linguagem. Apesar dessa base metodológica compartilhada, as duas tarefas têm sido estudadas de forma independente, o que pode levar a conclusões que negligenciam métodos mais robustos e insights valiosos desenvolvidos na outra tarefa. Neste trabalho, investigamos teórica e empiricamente a transferibilidade, ou seja, o quão bem um método originalmente desenvolvido para uma tarefa se desempenha na outra, entre MIAs e detecção de textos gerados por máquina. Para nossa contribuição teórica, provamos que a métrica que alcança o desempenho assintoticamente mais alto em ambas as tarefas é a mesma. Unificamos uma grande proporção da literatura existente no contexto dessa métrica ótima e hipotetizamos que a precisão com que um determinado método aproxima essa métrica está diretamente correlacionada com sua transferibilidade. Nossos experimentos empíricos em larga escala, incluindo 7 métodos de MIA e 5 detectores de texto gerado por máquina de última geração, abrangendo 13 domínios e 10 geradores, demonstram uma forte correlação de classificação (rho > 0,6) no desempenho entre tarefas. Notavelmente, descobrimos que o Binoculars, originalmente projetado para detecção de texto gerado por máquina, também alcança desempenho de última geração em benchmarks de MIA, demonstrando o impacto prático da transferibilidade. Nossas descobertas destacam a necessidade de maior conscientização e colaboração entre as duas comunidades de pesquisa. Para facilitar desenvolvimentos entre tarefas e avaliações justas, introduzimos o MINT, um conjunto unificado de avaliação para MIAs e detecção de texto gerado por máquina, com a implementação de 15 métodos recentes de ambas as tarefas.
English
Although membership inference attacks (MIAs) and machine-generated text detection target different goals, identifying training samples and synthetic texts, their methods often exploit similar signals based on a language model's probability distribution. Despite this shared methodological foundation, the two tasks have been independently studied, which may lead to conclusions that overlook stronger methods and valuable insights developed in the other task. In this work, we theoretically and empirically investigate the transferability, i.e., how well a method originally developed for one task performs on the other, between MIAs and machine text detection. For our theoretical contribution, we prove that the metric that achieves the asymptotically highest performance on both tasks is the same. We unify a large proportion of the existing literature in the context of this optimal metric and hypothesize that the accuracy with which a given method approximates this metric is directly correlated with its transferability. Our large-scale empirical experiments, including 7 state-of-the-art MIA methods and 5 state-of-the-art machine text detectors across 13 domains and 10 generators, demonstrate very strong rank correlation (rho > 0.6) in cross-task performance. We notably find that Binoculars, originally designed for machine text detection, achieves state-of-the-art performance on MIA benchmarks as well, demonstrating the practical impact of the transferability. Our findings highlight the need for greater cross-task awareness and collaboration between the two research communities. To facilitate cross-task developments and fair evaluations, we introduce MINT, a unified evaluation suite for MIAs and machine-generated text detection, with implementation of 15 recent methods from both tasks.
PDF11October 23, 2025