ChatPaper.aiChatPaper

言語モデル学習データの能動的再構成による検出手法の学習

Learning to Detect Language Model Training Data via Active Reconstruction

February 22, 2026
著者: Junjie Oscar Yin, John X. Morris, Vitaly Shmatikov, Sewon Min, Hannaneh Hajishirzi
cs.AI

要旨

LLM訓練データの検出は、一般に会員推論攻撃(MIA)問題として定式化される。しかし、従来のMIAは、固定されたモデル重みに対して対数尤度やテキスト生成を用いて受動的に動作する。本研究では、訓練を通じてモデルを能動的に誘導し、所与のテキストを再構築させるMIAの手法群であるActive Data Reconstruction Attack(ADRA)を提案する。我々は、訓練データは非会員データよりも再構築が容易であると仮定し、この再構築可能性の差異を会員推論に利用できると考える。強化学習(RL)が重みに符号化された振る舞いを鋭敏化させるという知見に基づき、対象モデルから初期化した方策をファインチューニングし、方策オン型RLによって能動的にデータ再構築を誘導する。MIAにRLを効果的に適用するため、再構成指標と対比報酬を設計する。最終的なアルゴリズムであるADRA及びその適応的変種ADRA+は、候補データ群が与えられた場合の再構成率と検出性能の両方を改善する。実験結果から、本手法は事前学習・事後学習・蒸留データの検出において、既存のMIAを一貫して上回り、従来の準優勝手法に対し平均10.7%の性能向上を示した。特にADRA+は、事前学習検出タスク(BookMIA)ではMin-K%++より18.8%、事後学習検出タスク(AIME)では7.6%それぞれ改善した。
English
Detecting LLM training data is generally framed as a membership inference attack (MIA) problem. However, conventional MIAs operate passively on fixed model weights, using log-likelihoods or text generations. In this work, we introduce Active Data Reconstruction Attack (ADRA), a family of MIA that actively induces a model to reconstruct a given text through training. We hypothesize that training data are more reconstructible than non-members, and the difference in their reconstructibility can be exploited for membership inference. Motivated by findings that reinforcement learning (RL) sharpens behaviors already encoded in weights, we leverage on-policy RL to actively elicit data reconstruction by finetuning a policy initialized from the target model. To effectively use RL for MIA, we design reconstruction metrics and contrastive rewards. The resulting algorithms, ADRA and its adaptive variant ADRA+, improve both reconstruction and detection given a pool of candidate data. Experiments show that our methods consistently outperform existing MIAs in detecting pre-training, post-training, and distillation data, with an average improvement of 10.7\% over the previous runner-up. In particular, \MethodPlus~improves over Min-K\%++ by 18.8\% on BookMIA for pre-training detection and by 7.6\% on AIME for post-training detection.
PDF12March 28, 2026