Imparare a Rilevare i Dati di Addestramento dei Modelli Linguistici tramite Ricostruzione Attiva

Abstract

Il rilevamento dei dati di addestramento degli LLM è generalmente inquadrato come un problema di attacco di inferenza di appartenenza (MIA). Tuttavia, i MIA convenzionali operano passivamente su pesi del modello fissi, utilizzando log-verosimiglianze o generazioni di testo. In questo lavoro, introduciamo l'Attacco Attivo di Ricostruzione Dati (ADRA), una famiglia di MIA che induce attivamente un modello a ricostruire un dato testo attraverso l'addestramento. Ipotesizziamo che i dati di addestramento siano più ricostruibili dei non-membri, e che la differenza nella loro ricostruibilità possa essere sfruttata per l'inferenza di appartenenza. Motivati dai risultati che mostrano come l'apprendimento per rinforzo (RL) acuisca comportamenti già codificati nei pesi, sfruttiamo il RL on-policy per elicitare attivamente la ricostruzione dei dati mediante fine-tuning di una policy inizializzata dal modello target. Per utilizzare efficacemente il RL per il MIA, progettiamo metriche di ricostruzione e ricompense contrastive. Gli algoritmi risultanti, ADRA e la sua variante adattiva ADRA+, migliorano sia la ricostruzione che il rilevamento dato un pool di dati candidati. Gli esperimenti mostrano che i nostri metodi superano costantemente i MIA esistenti nel rilevare dati di pre-addestramento, post-addestramento e di distillazione, con un miglioramento medio del 10,7% rispetto al precedente secondo classificato. In particolare, ADRA+ migliora Min-K%++ del 18,8% su BookMIA per il rilevamento del pre-addestramento e del 7,6% su AIME per il rilevamento del post-addestramento.

English

Detecting LLM training data is generally framed as a membership inference attack (MIA) problem. However, conventional MIAs operate passively on fixed model weights, using log-likelihoods or text generations. In this work, we introduce Active Data Reconstruction Attack (ADRA), a family of MIA that actively induces a model to reconstruct a given text through training. We hypothesize that training data are more reconstructible than non-members, and the difference in their reconstructibility can be exploited for membership inference. Motivated by findings that reinforcement learning (RL) sharpens behaviors already encoded in weights, we leverage on-policy RL to actively elicit data reconstruction by finetuning a policy initialized from the target model. To effectively use RL for MIA, we design reconstruction metrics and contrastive rewards. The resulting algorithms, ADRA and its adaptive variant ADRA+, improve both reconstruction and detection given a pool of candidate data. Experiments show that our methods consistently outperform existing MIAs in detecting pre-training, post-training, and distillation data, with an average improvement of 10.7\% over the previous runner-up. In particular, \MethodPlus~improves over Min-K\%++ by 18.8\% on BookMIA for pre-training detection and by 7.6\% on AIME for post-training detection.

Imparare a Rilevare i Dati di Addestramento dei Modelli Linguistici tramite Ricostruzione Attiva

Learning to Detect Language Model Training Data via Active Reconstruction

Abstract

Support