機械学習テキスト検出器はメンバーシップ推論攻撃である
Machine Text Detectors are Membership Inference Attacks
October 22, 2025
著者: Ryuto Koike, Liam Dugan, Masahiro Kaneko, Chris Callison-Burch, Naoaki Okazaki
cs.AI
要旨
メンバーシップ推論攻撃(MIA)と機械生成テキスト検出は、訓練サンプルの特定と合成テキストの検出という異なる目標を対象としているが、その手法はしばしば言語モデルの確率分布に基づく類似の信号を利用する。この共通の方法論的基盤にもかかわらず、これら2つのタスクは独立して研究されており、他方のタスクで開発されたより強力な手法や貴重な知見を見落とす結論に至る可能性がある。本研究では、MIAと機械生成テキスト検出の間の転移可能性、すなわち、あるタスクのために開発された手法が他方のタスクでどの程度うまく機能するかを理論的かつ実証的に調査する。理論的貢献として、両タスクで漸近的に最高の性能を達成する指標が同一であることを証明する。この最適な指標の文脈で既存の文献の大部分を統一し、与えられた手法がこの指標をどれだけ正確に近似するかがその転移可能性と直接相関すると仮説を立てる。大規模な実証実験では、13のドメインと10の生成器にわたる7つの最先端のMIA手法と5つの最先端の機械生成テキスト検出器を含め、クロスタスク性能において非常に強い順位相関(rho > 0.6)を示す。特に、機械生成テキスト検出のために設計されたBinocularsが、MIAベンチマークでも最先端の性能を達成することを発見し、転移可能性の実用的な影響を実証する。我々の知見は、これら2つの研究コミュニティ間のクロスタスク意識と協力の必要性を強調する。クロスタスクの開発と公平な評価を促進するため、MINTを導入する。これは、両タスクからの15の最新手法を実装した、MIAと機械生成テキスト検出のための統一評価スイートである。
English
Although membership inference attacks (MIAs) and machine-generated text
detection target different goals, identifying training samples and synthetic
texts, their methods often exploit similar signals based on a language model's
probability distribution. Despite this shared methodological foundation, the
two tasks have been independently studied, which may lead to conclusions that
overlook stronger methods and valuable insights developed in the other task. In
this work, we theoretically and empirically investigate the transferability,
i.e., how well a method originally developed for one task performs on the
other, between MIAs and machine text detection. For our theoretical
contribution, we prove that the metric that achieves the asymptotically highest
performance on both tasks is the same. We unify a large proportion of the
existing literature in the context of this optimal metric and hypothesize that
the accuracy with which a given method approximates this metric is directly
correlated with its transferability. Our large-scale empirical experiments,
including 7 state-of-the-art MIA methods and 5 state-of-the-art machine text
detectors across 13 domains and 10 generators, demonstrate very strong rank
correlation (rho > 0.6) in cross-task performance. We notably find that
Binoculars, originally designed for machine text detection, achieves
state-of-the-art performance on MIA benchmarks as well, demonstrating the
practical impact of the transferability. Our findings highlight the need for
greater cross-task awareness and collaboration between the two research
communities. To facilitate cross-task developments and fair evaluations, we
introduce MINT, a unified evaluation suite for MIAs and machine-generated text
detection, with implementation of 15 recent methods from both tasks.