大規模言語モデルの強化学習後トレーニングにおけるデータ汚染の検出
Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models
October 10, 2025
著者: Yongding Tao, Tian Wang, Yihong Dong, Huanyu Liu, Kechi Zhang, Xiaolong Hu, Ge Li
cs.AI
要旨
データ汚染は、大規模言語モデル(LLMs)の信頼性ある評価において重大な脅威をもたらす。この問題は、ベンチマークサンプルが訓練セットに意図せず含まれてしまうことで、報告された性能の妥当性が損なわれる場合に生じる。事前学習段階や教師あり微調整段階における検出手法は開発されているが、強化学習(RL)ポストトレーニングという重要性を増す段階においては、重要な研究ギャップが存在する。LLMの推論能力を向上させる上でRLポストトレーニングが重要な役割を果たす中、このパラダイムにおける専門的な汚染検出手法の欠如は重大な脆弱性を引き起こしている。この問題に対処するため、我々はRLポストトレーニングシナリオにおけるデータ検出の初の体系的な研究を行い、Self-Critiqueを提案する。本手法は、RL段階後のLLMの出力エントロピー分布が特定の狭いモードに収束する傾向があるという重要な観察に基づいている。Self-Critiqueは、このエントロピー減少を引き起こす、モデルが狭い推論経路に収束するという基盤的なポリシー崩壊を探るものである。この研究を促進するため、我々はRL-MIAというベンチマークも導入し、特定の汚染シナリオをシミュレートする。大規模な実験により、Self-Critiqueが複数のモデルと汚染タスクにおいてベースライン手法を大幅に上回り、AUCの改善率が最大30%に達することが示された。既存の手法がRL段階の汚染に対してほぼランダムな推測に近いのに対し、本手法は検出を可能にするものである。
English
Data contamination poses a significant threat to the reliable evaluation of
Large Language Models (LLMs). This issue arises when benchmark samples may
inadvertently appear in training sets, compromising the validity of reported
performance. While detection methods have been developed for the pre-training
and Supervised Fine-Tuning stages, a critical research gap exists for the
increasingly significant phase of Reinforcement Learning (RL) post-training. As
RL post-training becomes pivotal for advancing LLM reasoning, the absence of
specialized contamination detection methods in this paradigm presents a
critical vulnerability. To address this, we conduct the first systematic study
of data detection within RL post-training scenario and propose Self-Critique.
Our method is motivated by a key observation: after RL phase, the output
entropy distribution of LLMs tends to collapse into highly specific and sparse
modes. Self-Critique probes for the underlying policy collapse, i.e., the
model's convergence to a narrow reasoning path, which causes this entropy
reduction. To facilitate this research, we also introduce RL-MIA, a benchmark
constructed to simulate this specific contamination scenario. Extensive
experiments show that Self-Critique significantly outperforms baseline methods
across multiple models and contamination tasks, achieving an AUC improvement of
up to 30%. Whereas existing methods are close to a random guess for RL-phase
contamination, our method makes detection possible.