Aprendendo a Detectar Dados de Treinamento de Modelos de Linguagem por meio de Reconstrução Ativa
Learning to Detect Language Model Training Data via Active Reconstruction
February 22, 2026
Autores: Junjie Oscar Yin, John X. Morris, Vitaly Shmatikov, Sewon Min, Hannaneh Hajishirzi
cs.AI
Resumo
A detecção de dados de treinamento de LLMs é geralmente enquadrada como um problema de ataque de inferência de associação (MIA). No entanto, os MIAs convencionais operam passivamente em pesos de modelo fixos, utilizando log-verossimilhanças ou gerações de texto. Neste trabalho, introduzimos o Ataque de Reconstrução Ativa de Dados (ADRA), uma família de MIAs que induz ativamente um modelo a reconstruir um determinado texto por meio do treinamento. Nossa hipótese é que os dados de treinamento são mais reconstruíveis do que os não-membros, e a diferença em sua reconstruibilidade pode ser explorada para inferência de associação. Motivados por descobertas de que o aprendizado por reforço (RL) aguça comportamentos já codificados nos pesos, aproveitamos o RL *on-policy* para eliciar ativamente a reconstrução de dados através do ajuste fino de uma política inicializada a partir do modelo alvo. Para usar o RL de forma eficaz em MIAs, projetamos métricas de reconstrução e recompensas contrastivas. Os algoritmos resultantes, ADRA e sua variante adaptativa ADRA+, melhoram tanto a reconstrução quanto a detecção, dada uma pool de dados candidatos. Experimentos mostram que nossos métodos superam consistentemente os MIAs existentes na detecção de dados de pré-treinamento, pós-treinamento e de destilação, com uma melhoria média de 10,7\% em relação ao vice-campeão anterior. Em particular, o \MethodPlus~supera o Min-K\%++ em 18,8\% no BookMIA para detecção de pré-treinamento e em 7,6\% no AIME para detecção de pós-treinamento.
English
Detecting LLM training data is generally framed as a membership inference attack (MIA) problem. However, conventional MIAs operate passively on fixed model weights, using log-likelihoods or text generations. In this work, we introduce Active Data Reconstruction Attack (ADRA), a family of MIA that actively induces a model to reconstruct a given text through training. We hypothesize that training data are more reconstructible than non-members, and the difference in their reconstructibility can be exploited for membership inference. Motivated by findings that reinforcement learning (RL) sharpens behaviors already encoded in weights, we leverage on-policy RL to actively elicit data reconstruction by finetuning a policy initialized from the target model. To effectively use RL for MIA, we design reconstruction metrics and contrastive rewards. The resulting algorithms, ADRA and its adaptive variant ADRA+, improve both reconstruction and detection given a pool of candidate data. Experiments show that our methods consistently outperform existing MIAs in detecting pre-training, post-training, and distillation data, with an average improvement of 10.7\% over the previous runner-up. In particular, \MethodPlus~improves over Min-K\%++ by 18.8\% on BookMIA for pre-training detection and by 7.6\% on AIME for post-training detection.