Aprendizaje de la Detección de Datos de Entrenamiento de Modelos de Lenguaje mediante Reconstrucción Activa

Resumen

La detección de datos de entrenamiento en LLM generalmente se enmarca como un problema de ataque de inferencia de membresía (MIA). Sin embargo, los MIA convencionales operan de forma pasiva sobre pesos de modelo fijos, utilizando log-verosimilitudes o generaciones de texto. En este trabajo, presentamos el Ataque Activo de Reconstrucción de Datos (ADRA), una familia de MIA que induce activamente a un modelo a reconstruir un texto dado mediante entrenamiento. Nuestra hipótesis es que los datos de entrenamiento son más reconstruibles que los no miembros, y que la diferencia en su capacidad de reconstrucción puede explotarse para la inferencia de membresía. Motivados por hallazgos que indican que el aprendizaje por refuerzo (RL) agudiza comportamientos ya codificados en los pesos, aprovechamos el RL *on-policy* para elicitar activamente la reconstrucción de datos mediante el ajuste fino de una política inicializada a partir del modelo objetivo. Para utilizar el RL de manera efectiva en MIA, diseñamos métricas de reconstrucción y recompensas contrastivas. Los algoritmos resultantes, ADRA y su variante adaptativa ADRA+, mejoran tanto la reconstrucción como la detección dado un conjunto de datos candidatos. Los experimentos muestran que nuestros métodos superan consistentemente a los MIA existentes en la detección de datos de pre-entrenamiento, post-entrenamiento y destilación, con una mejora promedio del 10.7\% sobre el anterior subcampeón. En particular, ADRA+ mejora a Min-K\%++ en un 18.8\% en BookMIA para la detección de pre-entrenamiento y en un 7.6\% en AIME para la detección de post-entrenamiento.

English

Detecting LLM training data is generally framed as a membership inference attack (MIA) problem. However, conventional MIAs operate passively on fixed model weights, using log-likelihoods or text generations. In this work, we introduce Active Data Reconstruction Attack (ADRA), a family of MIA that actively induces a model to reconstruct a given text through training. We hypothesize that training data are more reconstructible than non-members, and the difference in their reconstructibility can be exploited for membership inference. Motivated by findings that reinforcement learning (RL) sharpens behaviors already encoded in weights, we leverage on-policy RL to actively elicit data reconstruction by finetuning a policy initialized from the target model. To effectively use RL for MIA, we design reconstruction metrics and contrastive rewards. The resulting algorithms, ADRA and its adaptive variant ADRA+, improve both reconstruction and detection given a pool of candidate data. Experiments show that our methods consistently outperform existing MIAs in detecting pre-training, post-training, and distillation data, with an average improvement of 10.7\% over the previous runner-up. In particular, \MethodPlus~improves over Min-K\%++ by 18.8\% on BookMIA for pre-training detection and by 7.6\% on AIME for post-training detection.

Aprendizaje de la Detección de Datos de Entrenamiento de Modelos de Lenguaje mediante Reconstrucción Activa

Learning to Detect Language Model Training Data via Active Reconstruction

Resumen

Support