Обнаружение загрязнения данных в процессе посттренировочного обучения с подкреплением для больших языковых моделей
Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models
October 10, 2025
Авторы: Yongding Tao, Tian Wang, Yihong Dong, Huanyu Liu, Kechi Zhang, Xiaolong Hu, Ge Li
cs.AI
Аннотация
Загрязнение данных представляет собой серьезную угрозу для надежной оценки больших языковых моделей (LLM). Эта проблема возникает, когда образцы из тестовых наборов могут непреднамеренно появляться в обучающих данных, что ставит под сомнение достоверность заявленных показателей производительности. Хотя методы обнаружения были разработаны для этапов предварительного обучения и контролируемого тонкого настройки, существует значительный пробел в исследованиях для все более важного этапа пост-обучения с подкреплением (RL). Поскольку пост-обучение с подкреплением становится ключевым для улучшения способности LLM к рассуждению, отсутствие специализированных методов обнаружения загрязнения в этом подходе представляет собой серьезную уязвимость. Для решения этой проблемы мы проводим первое систематическое исследование обнаружения данных в сценарии пост-обучения с подкреплением и предлагаем метод Self-Critique. Наш подход основан на ключевом наблюдении: после этапа RL распределение энтропии выходных данных LLM имеет тенденцию к коллапсу в высоко специфичные и разреженные режимы. Self-Critique выявляет коллапс политики, то есть сходимость модели к узкому пути рассуждений, что вызывает это снижение энтропии. Для поддержки этого исследования мы также представляем RL-MIA, эталонный набор данных, созданный для моделирования этого конкретного сценария загрязнения. Многочисленные эксперименты показывают, что Self-Critique значительно превосходит базовые методы для различных моделей и задач загрязнения, достигая улучшения AUC до 30%. В то время как существующие методы близки к случайному угадыванию для загрязнения на этапе RL, наш метод делает обнаружение возможным.
English
Data contamination poses a significant threat to the reliable evaluation of
Large Language Models (LLMs). This issue arises when benchmark samples may
inadvertently appear in training sets, compromising the validity of reported
performance. While detection methods have been developed for the pre-training
and Supervised Fine-Tuning stages, a critical research gap exists for the
increasingly significant phase of Reinforcement Learning (RL) post-training. As
RL post-training becomes pivotal for advancing LLM reasoning, the absence of
specialized contamination detection methods in this paradigm presents a
critical vulnerability. To address this, we conduct the first systematic study
of data detection within RL post-training scenario and propose Self-Critique.
Our method is motivated by a key observation: after RL phase, the output
entropy distribution of LLMs tends to collapse into highly specific and sparse
modes. Self-Critique probes for the underlying policy collapse, i.e., the
model's convergence to a narrow reasoning path, which causes this entropy
reduction. To facilitate this research, we also introduce RL-MIA, a benchmark
constructed to simulate this specific contamination scenario. Extensive
experiments show that Self-Critique significantly outperforms baseline methods
across multiple models and contamination tasks, achieving an AUC improvement of
up to 30%. Whereas existing methods are close to a random guess for RL-phase
contamination, our method makes detection possible.