대형 언어 모델의 강화 학습 사후 훈련에서 데이터 오염 탐지
Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models
October 10, 2025
저자: Yongding Tao, Tian Wang, Yihong Dong, Huanyu Liu, Kechi Zhang, Xiaolong Hu, Ge Li
cs.AI
초록
데이터 오염은 대규모 언어 모델(LLM)의 신뢰할 수 있는 평가에 심각한 위협을 가합니다. 이 문제는 벤치마크 샘플이 실수로 훈련 세트에 포함되어 보고된 성능의 타당성을 훼손할 때 발생합니다. 사전 훈련 및 지도 미세 조정 단계를 위한 탐지 방법이 개발되었지만, 점점 더 중요해지는 강화 학습(RL) 사후 훈련 단계에 대한 중요한 연구 간극이 존재합니다. RL 사후 훈련이 LLM의 추론 능력을 발전시키는 데 핵심적인 역할을 함에 따라, 이 패러다임에서 전문화된 오염 탐지 방법의 부재는 심각한 취약점으로 작용합니다. 이를 해결하기 위해, 우리는 RL 사후 훈련 시나리오 내에서 데이터 탐지에 대한 첫 번째 체계적인 연구를 수행하고 Self-Critique 방법을 제안합니다. 우리의 방법은 RL 단계 이후 LLM의 출력 엔트로피 분포가 매우 특정하고 희소한 모드로 붕괴되는 경향이 있다는 주요 관찰에 기반을 두고 있습니다. Self-Critique는 이러한 엔트로피 감소를 초래하는, 모델이 좁은 추론 경로로 수렴하는 정책 붕괴를 탐색합니다. 이 연구를 촉진하기 위해, 우리는 또한 이 특정 오염 시나리오를 시뮬레이션하기 위해 구성된 벤치마크인 RL-MIA를 소개합니다. 광범위한 실험을 통해 Self-Critique가 여러 모델과 오염 작업에서 기준 방법을 크게 능가하며, AUC 개선률이 최대 30%에 달함을 보여줍니다. 기존 방법들이 RL 단계 오염에 대해 무작위 추측에 가까운 반면, 우리의 방법은 탐지를 가능하게 합니다.
English
Data contamination poses a significant threat to the reliable evaluation of
Large Language Models (LLMs). This issue arises when benchmark samples may
inadvertently appear in training sets, compromising the validity of reported
performance. While detection methods have been developed for the pre-training
and Supervised Fine-Tuning stages, a critical research gap exists for the
increasingly significant phase of Reinforcement Learning (RL) post-training. As
RL post-training becomes pivotal for advancing LLM reasoning, the absence of
specialized contamination detection methods in this paradigm presents a
critical vulnerability. To address this, we conduct the first systematic study
of data detection within RL post-training scenario and propose Self-Critique.
Our method is motivated by a key observation: after RL phase, the output
entropy distribution of LLMs tends to collapse into highly specific and sparse
modes. Self-Critique probes for the underlying policy collapse, i.e., the
model's convergence to a narrow reasoning path, which causes this entropy
reduction. To facilitate this research, we also introduce RL-MIA, a benchmark
constructed to simulate this specific contamination scenario. Extensive
experiments show that Self-Critique significantly outperforms baseline methods
across multiple models and contamination tasks, achieving an AUC improvement of
up to 30%. Whereas existing methods are close to a random guess for RL-phase
contamination, our method makes detection possible.