Aktive Rekonstruktion zum Erkennen von Trainingsdaten für Sprachmodelle
Learning to Detect Language Model Training Data via Active Reconstruction
February 22, 2026
Autoren: Junjie Oscar Yin, John X. Morris, Vitaly Shmatikov, Sewon Min, Hannaneh Hajishirzi
cs.AI
Zusammenfassung
Die Erkennung von LLM-Trainingsdaten wird allgemein als Problem von Membership-Inference-Angriffen (MIA) betrachtet. Herkömmliche MIAs arbeiten jedoch passiv auf festen Modellgewichten unter Verwendung von Log-Likelihoods oder Textgenerierungen. In dieser Arbeit stellen wir Active Data Reconstruction Attack (ADRA) vor, eine Familie von MIAs, die ein Modell aktiv durch Training zur Rekonstruktion eines gegebenen Textes veranlasst. Wir stellen die Hypothese auf, dass Trainingsdaten besser rekonstruierbar sind als Nicht-Mitglieder, und dass der Unterschied in ihrer Rekonstruierbarkeit für Membership Inference genutzt werden kann. Angeregt durch Erkenntnisse, dass Reinforcement Learning (RL) bereits in den Gewichten kodierte Verhaltensweisen verstärkt, nutzen wir On-Policy-RL, um durch Feinabstimmung einer vom Zielmodell initialisierten Policy aktiv Datenrekonstruktion hervorzurufen. Um RL effektiv für MIA einzusetzen, entwerfen wir Rekonstruktionsmetriken und kontrastive Belohnungen. Die resultierenden Algorithmen ADRA und seine adaptive Variante ADRA+ verbessern sowohl die Rekonstruktion als auch die Detektion bei gegebenem Kandidatendatenpool. Experimente zeigen, dass unsere Methoden bestehende MIAs durchgängig in der Erkennung von Pre-Training-, Post-Training- und Distillationsdaten übertreffen, mit einer durchschnittlichen Verbesserung von 10,7 % gegenüber dem vorherigen Zweitplatzierten. Insbesondere verbessert \MethodPlus~Min-K%++ um 18,8 % bei BookMIA für Pre-Training-Erkennung und um 7,6 % bei AIME für Post-Training-Erkennung.
English
Detecting LLM training data is generally framed as a membership inference attack (MIA) problem. However, conventional MIAs operate passively on fixed model weights, using log-likelihoods or text generations. In this work, we introduce Active Data Reconstruction Attack (ADRA), a family of MIA that actively induces a model to reconstruct a given text through training. We hypothesize that training data are more reconstructible than non-members, and the difference in their reconstructibility can be exploited for membership inference. Motivated by findings that reinforcement learning (RL) sharpens behaviors already encoded in weights, we leverage on-policy RL to actively elicit data reconstruction by finetuning a policy initialized from the target model. To effectively use RL for MIA, we design reconstruction metrics and contrastive rewards. The resulting algorithms, ADRA and its adaptive variant ADRA+, improve both reconstruction and detection given a pool of candidate data. Experiments show that our methods consistently outperform existing MIAs in detecting pre-training, post-training, and distillation data, with an average improvement of 10.7\% over the previous runner-up. In particular, \MethodPlus~improves over Min-K\%++ by 18.8\% on BookMIA for pre-training detection and by 7.6\% on AIME for post-training detection.