ChatPaper.aiChatPaper

머신 텍스트 탐지기는 멤버십 추론 공격이다.

Machine Text Detectors are Membership Inference Attacks

October 22, 2025
저자: Ryuto Koike, Liam Dugan, Masahiro Kaneko, Chris Callison-Burch, Naoaki Okazaki
cs.AI

초록

멤버십 추론 공격(MIA)과 기계 생성 텍스트 탐지는 각각 훈련 샘플과 합성 텍스트를 식별한다는 서로 다른 목표를 가지고 있지만, 이들의 방법론은 종종 언어 모델의 확률 분포를 기반으로 한 유사한 신호를 활용합니다. 이러한 공통된 방법론적 기반에도 불구하고, 두 과제는 독립적으로 연구되어 왔으며, 이는 다른 과제에서 개발된 더 강력한 방법과 유용한 통찰을 간과하는 결론으로 이어질 수 있습니다. 본 연구에서는 MIA와 기계 텍스트 탐지 간의 전이 가능성, 즉 한 과제를 위해 개발된 방법이 다른 과제에서 얼마나 잘 수행되는지를 이론적 및 실증적으로 조사합니다. 이론적 기여로서, 우리는 두 과제에서 점근적으로 최고 성능을 달성하는 메트릭이 동일함을 증명합니다. 우리는 이 최적 메트릭의 맥락에서 기존 문헌의 상당 부분을 통합하고, 주어진 메트릭이 이 최적 메트릭을 얼마나 정확하게 근사하는지가 그 전이 가능성과 직접적으로 상관관계가 있다는 가설을 세웁니다. 13개 도메인과 10개 생성기를 대상으로 7개의 최신 MIA 방법과 5개의 최신 기계 텍스트 탐지기를 포함한 대규모 실험을 통해, 교차 과제 성능에서 매우 강한 순위 상관관계(rho > 0.6)를 입증합니다. 특히, 기계 텍스트 탐지를 위해 원래 설계된 Binoculars가 MIA 벤치마크에서도 최신 성능을 달성함으로써 전이 가능성의 실질적인 영향을 보여줍니다. 우리의 연구 결과는 두 연구 커뮤니티 간의 더 큰 교차 과제 인식과 협력의 필요성을 강조합니다. 교차 과제 개발과 공정한 평가를 용이하게 하기 위해, 우리는 두 과제에서 최근에 개발된 15개 방법을 구현한 통합 평가 도구인 MINT를 소개합니다.
English
Although membership inference attacks (MIAs) and machine-generated text detection target different goals, identifying training samples and synthetic texts, their methods often exploit similar signals based on a language model's probability distribution. Despite this shared methodological foundation, the two tasks have been independently studied, which may lead to conclusions that overlook stronger methods and valuable insights developed in the other task. In this work, we theoretically and empirically investigate the transferability, i.e., how well a method originally developed for one task performs on the other, between MIAs and machine text detection. For our theoretical contribution, we prove that the metric that achieves the asymptotically highest performance on both tasks is the same. We unify a large proportion of the existing literature in the context of this optimal metric and hypothesize that the accuracy with which a given method approximates this metric is directly correlated with its transferability. Our large-scale empirical experiments, including 7 state-of-the-art MIA methods and 5 state-of-the-art machine text detectors across 13 domains and 10 generators, demonstrate very strong rank correlation (rho > 0.6) in cross-task performance. We notably find that Binoculars, originally designed for machine text detection, achieves state-of-the-art performance on MIA benchmarks as well, demonstrating the practical impact of the transferability. Our findings highlight the need for greater cross-task awareness and collaboration between the two research communities. To facilitate cross-task developments and fair evaluations, we introduce MINT, a unified evaluation suite for MIAs and machine-generated text detection, with implementation of 15 recent methods from both tasks.
PDF11October 23, 2025