Обучение обнаружению данных для обучения языковых моделей с помощью активной реконструкции
Learning to Detect Language Model Training Data via Active Reconstruction
February 22, 2026
Авторы: Junjie Oscar Yin, John X. Morris, Vitaly Shmatikov, Sewon Min, Hannaneh Hajishirzi
cs.AI
Аннотация
Обнаружение данных обучения больших языковых моделей (LLM) обычно формулируется как задача атаки на вывод членства (membership inference attack, MIA). Однако традиционные MIA работают пассивно на фиксированных весах модели, используя логарифмы правдоподобия или сгенерированные тексты. В данной работе мы представляем Активную Атаку на Реконструкцию Данных (Active Data Reconstruction Attack, ADRA) — семейство MIA, которое активно побуждает модель реконструировать заданный текст посредством дообучения. Мы выдвигаем гипотезу, что данные обучения являются более восстанавливаемыми, чем данные, не входящие в набор, и эта разница в их восстанавливаемости может быть использована для вывода членства. Основываясь на результатах, показывающих, что обучение с подкреплением (reinforcement learning, RL) обостряет поведение, уже закодированное в весах, мы используем RL на основе стратегии (on-policy RL) для активного побуждения модели к реконструкции данных путем дообучения политики, инициализированной из целевой модели. Для эффективного использования RL в MIA мы разрабатываем метрики реконструкции и контрастные вознаграждения. Полученные алгоритмы, ADRA и его адаптивный вариант ADRA+, улучшают как реконструкцию, так и обнаружение при наличии пула данных-кандидатов. Эксперименты показывают, что наши методы стабильно превосходят существующие MIA в обнаружении данных предварительного обучения, пост-обучения и дистилляции, со средним улучшением на 10,7% по сравнению с предыдущим лучшим методом. В частности, ADRA+ превосходит Min-K%++ на 18,8% на BookMIA для обнаружения данных предварительного обучения и на 7,6% на AIME для обнаружения данных пост-обучения.
English
Detecting LLM training data is generally framed as a membership inference attack (MIA) problem. However, conventional MIAs operate passively on fixed model weights, using log-likelihoods or text generations. In this work, we introduce Active Data Reconstruction Attack (ADRA), a family of MIA that actively induces a model to reconstruct a given text through training. We hypothesize that training data are more reconstructible than non-members, and the difference in their reconstructibility can be exploited for membership inference. Motivated by findings that reinforcement learning (RL) sharpens behaviors already encoded in weights, we leverage on-policy RL to actively elicit data reconstruction by finetuning a policy initialized from the target model. To effectively use RL for MIA, we design reconstruction metrics and contrastive rewards. The resulting algorithms, ADRA and its adaptive variant ADRA+, improve both reconstruction and detection given a pool of candidate data. Experiments show that our methods consistently outperform existing MIAs in detecting pre-training, post-training, and distillation data, with an average improvement of 10.7\% over the previous runner-up. In particular, \MethodPlus~improves over Min-K\%++ by 18.8\% on BookMIA for pre-training detection and by 7.6\% on AIME for post-training detection.