Actief Reconstructief Leren om Trainingsgegevens van Taalmodellen op te Sporen
Learning to Detect Language Model Training Data via Active Reconstruction
February 22, 2026
Auteurs: Junjie Oscar Yin, John X. Morris, Vitaly Shmatikov, Sewon Min, Hannaneh Hajishirzi
cs.AI
Samenvatting
Het detecteren van LLM-trainingsdata wordt over het algemeen geformuleerd als een membership inference attack (MIA)-probleem. Conventionele MIA's opereren echter passief op vaste modelgewichten, waarbij gebruik wordt gemaakt van log-waarschijnlijkheden of gegenereerde tekst. In dit werk introduceren we Active Data Reconstruction Attack (ADRA), een familie van MIA's die actief een model induceert om een gegeven tekst te reconstrueren door middel van training. Wij veronderstellen dat trainingsdata beter reconstrueerbaar zijn dan niet-lidteksten, en dat het verschil in reconstrueerbaarheid kan worden benut voor membership inference. Gemotiveerd door bevindingen dat reinforcement learning (RL) gedrag dat reeds in de gewichten gecodeerd is aanscherpt, benutten we on-policy RL om actief datareconstructie op te roepen door een policy te finetunen die geïnitialiseerd is vanuit het doelmodel. Om RL effectief te gebruiken voor MIA, ontwerpen we reconstructiemetrieken en contrastieve beloningen. De resulterende algoritmen, ADRA en zijn adaptieve variant ADRA+, verbeteren zowel de reconstructie als de detectie gegeven een verzameling kandidaatdata. Experimenten tonen aan dat onze methoden consistent superieur presteren aan bestaande MIA's in het detecteren van pre-training, post-training en distillatiedata, met een gemiddelde verbetering van 10,7% ten opzichte van de vorige runner-up. In het bijzonder verbetert \MethodPlus~met 18,8% ten opzichte van Min-K%++ op BookMIA voor pre-training-detectie en met 7,6% op AIME voor post-training-detectie.
English
Detecting LLM training data is generally framed as a membership inference attack (MIA) problem. However, conventional MIAs operate passively on fixed model weights, using log-likelihoods or text generations. In this work, we introduce Active Data Reconstruction Attack (ADRA), a family of MIA that actively induces a model to reconstruct a given text through training. We hypothesize that training data are more reconstructible than non-members, and the difference in their reconstructibility can be exploited for membership inference. Motivated by findings that reinforcement learning (RL) sharpens behaviors already encoded in weights, we leverage on-policy RL to actively elicit data reconstruction by finetuning a policy initialized from the target model. To effectively use RL for MIA, we design reconstruction metrics and contrastive rewards. The resulting algorithms, ADRA and its adaptive variant ADRA+, improve both reconstruction and detection given a pool of candidate data. Experiments show that our methods consistently outperform existing MIAs in detecting pre-training, post-training, and distillation data, with an average improvement of 10.7\% over the previous runner-up. In particular, \MethodPlus~improves over Min-K\%++ by 18.8\% on BookMIA for pre-training detection and by 7.6\% on AIME for post-training detection.