ChatPaper.aiChatPaper

機械学習テキスト検出器はメンバーシップ推論攻撃である

Machine Text Detectors are Membership Inference Attacks

October 22, 2025
著者: Ryuto Koike, Liam Dugan, Masahiro Kaneko, Chris Callison-Burch, Naoaki Okazaki
cs.AI

要旨

メンバーシップ推論攻撃(MIA)と機械生成テキスト検出は、訓練サンプルの特定と合成テキストの検出という異なる目標を対象としているが、その手法はしばしば言語モデルの確率分布に基づく類似の信号を利用する。この共通の方法論的基盤にもかかわらず、これら2つのタスクは独立して研究されており、他方のタスクで開発されたより強力な手法や貴重な知見を見落とす結論に至る可能性がある。本研究では、MIAと機械生成テキスト検出の間の転移可能性、すなわち、あるタスクのために開発された手法が他方のタスクでどの程度うまく機能するかを理論的かつ実証的に調査する。理論的貢献として、両タスクで漸近的に最高の性能を達成する指標が同一であることを証明する。この最適な指標の文脈で既存の文献の大部分を統一し、与えられた手法がこの指標をどれだけ正確に近似するかがその転移可能性と直接相関すると仮説を立てる。大規模な実証実験では、13のドメインと10の生成器にわたる7つの最先端のMIA手法と5つの最先端の機械生成テキスト検出器を含め、クロスタスク性能において非常に強い順位相関(rho > 0.6)を示す。特に、機械生成テキスト検出のために設計されたBinocularsが、MIAベンチマークでも最先端の性能を達成することを発見し、転移可能性の実用的な影響を実証する。我々の知見は、これら2つの研究コミュニティ間のクロスタスク意識と協力の必要性を強調する。クロスタスクの開発と公平な評価を促進するため、MINTを導入する。これは、両タスクからの15の最新手法を実装した、MIAと機械生成テキスト検出のための統一評価スイートである。
English
Although membership inference attacks (MIAs) and machine-generated text detection target different goals, identifying training samples and synthetic texts, their methods often exploit similar signals based on a language model's probability distribution. Despite this shared methodological foundation, the two tasks have been independently studied, which may lead to conclusions that overlook stronger methods and valuable insights developed in the other task. In this work, we theoretically and empirically investigate the transferability, i.e., how well a method originally developed for one task performs on the other, between MIAs and machine text detection. For our theoretical contribution, we prove that the metric that achieves the asymptotically highest performance on both tasks is the same. We unify a large proportion of the existing literature in the context of this optimal metric and hypothesize that the accuracy with which a given method approximates this metric is directly correlated with its transferability. Our large-scale empirical experiments, including 7 state-of-the-art MIA methods and 5 state-of-the-art machine text detectors across 13 domains and 10 generators, demonstrate very strong rank correlation (rho > 0.6) in cross-task performance. We notably find that Binoculars, originally designed for machine text detection, achieves state-of-the-art performance on MIA benchmarks as well, demonstrating the practical impact of the transferability. Our findings highlight the need for greater cross-task awareness and collaboration between the two research communities. To facilitate cross-task developments and fair evaluations, we introduce MINT, a unified evaluation suite for MIAs and machine-generated text detection, with implementation of 15 recent methods from both tasks.
PDF11October 23, 2025