Apprentissage de la détection des données d'entraînement des modèles linguistiques par reconstruction active

Résumé

La détection des données d'entraînement des LLM est généralement abordée comme un problème d'attaque par inférence d'appartenance (MIA). Cependant, les MIA conventionnelles opèrent passivement sur des poids de modèle fixes, en utilisant les log-vraisemblances ou les générations de texte. Dans ce travail, nous présentons l'Attaque Active par Reconstruction des Données (ADRA), une famille de MIA qui amène activement un modèle à reconstruire un texte donné via un entraînement. Nous faisons l'hypothèse que les données d'entraînement sont plus reconstructibles que les non-membres, et que la différence de reconstructibilité peut être exploitée pour l'inférence d'appartenance. Motivés par les résultats montrant que l'apprentissage par renforcement (RL) accentue les comportements déjà encodés dans les poids, nous utilisons du RL sur-politique pour provoquer activement la reconstruction des données en affinant une politique initialisée à partir du modèle cible. Pour utiliser efficacement le RL dans le cadre des MIA, nous concevons des métriques de reconstruction et des récompenses contrastives. Les algorithmes résultants, ADRA et sa variante adaptive ADRA+, améliorent à la fois la reconstruction et la détection étant donné un ensemble de données candidates. Les expériences montrent que nos méthodes surpassent constamment les MIA existantes pour détecter les données de pré-entraînement, de post-entraînement et de distillation, avec une amélioration moyenne de 10,7 % par rapport au précédent finaliste. En particulier, ADRA+ améliore Min-K%++ de 18,8 % sur BookMIA pour la détection en pré-entraînement et de 7,6 % sur AIME pour la détection en post-entraînement.

English

Detecting LLM training data is generally framed as a membership inference attack (MIA) problem. However, conventional MIAs operate passively on fixed model weights, using log-likelihoods or text generations. In this work, we introduce Active Data Reconstruction Attack (ADRA), a family of MIA that actively induces a model to reconstruct a given text through training. We hypothesize that training data are more reconstructible than non-members, and the difference in their reconstructibility can be exploited for membership inference. Motivated by findings that reinforcement learning (RL) sharpens behaviors already encoded in weights, we leverage on-policy RL to actively elicit data reconstruction by finetuning a policy initialized from the target model. To effectively use RL for MIA, we design reconstruction metrics and contrastive rewards. The resulting algorithms, ADRA and its adaptive variant ADRA+, improve both reconstruction and detection given a pool of candidate data. Experiments show that our methods consistently outperform existing MIAs in detecting pre-training, post-training, and distillation data, with an average improvement of 10.7\% over the previous runner-up. In particular, \MethodPlus~improves over Min-K\%++ by 18.8\% on BookMIA for pre-training detection and by 7.6\% on AIME for post-training detection.

Apprentissage de la détection des données d'entraînement des modèles linguistiques par reconstruction active

Learning to Detect Language Model Training Data via Active Reconstruction

Résumé

Support