Detectie van Datacontaminatie door Reinforcement Learning na Training bij Grote Taalmodellen
Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models
October 10, 2025
Auteurs: Yongding Tao, Tian Wang, Yihong Dong, Huanyu Liu, Kechi Zhang, Xiaolong Hu, Ge Li
cs.AI
Samenvatting
Datacontaminatie vormt een aanzienlijke bedreiging voor de betrouwbare evaluatie van Large Language Models (LLM's). Dit probleem doet zich voor wanneer benchmarkvoorbeelden onbedoeld in trainingssets terechtkomen, wat de geldigheid van gerapporteerde prestaties aantast. Hoewel detectiemethoden zijn ontwikkeld voor de pre-training en Supervised Fine-Tuning fasen, bestaat er een kritieke onderzoekskloof voor de steeds belangrijkere fase van Reinforcement Learning (RL) post-training. Aangezien RL post-training cruciaal wordt voor het bevorderen van LLM-redenering, vormt het ontbreken van gespecialiseerde contaminatiedetectiemethoden in dit paradigma een kritieke kwetsbaarheid. Om dit aan te pakken, voeren we de eerste systematische studie uit naar datadetectie binnen het RL post-trainingsscenario en introduceren we Self-Critique. Onze methode is gemotiveerd door een belangrijke observatie: na de RL-fase neigt de uitvoerentropieverdeling van LLM's in te storten in zeer specifieke en spaarzame modi. Self-Critique onderzoekt het onderliggende beleidsinstorting, d.w.z. de convergentie van het model naar een smal redeneerpad, wat deze entropiereductie veroorzaakt. Om dit onderzoek te faciliteren, introduceren we ook RL-MIA, een benchmark die is opgebouwd om dit specifieke contaminatiescenario te simuleren. Uitgebreide experimenten tonen aan dat Self-Critique baseline-methoden aanzienlijk overtreft over meerdere modellen en contaminatietaken, met een AUC-verbetering tot wel 30%. Terwijl bestaande methoden dicht bij een willekeurige gok liggen voor RL-fase contaminatie, maakt onze methode detectie mogelijk.
English
Data contamination poses a significant threat to the reliable evaluation of
Large Language Models (LLMs). This issue arises when benchmark samples may
inadvertently appear in training sets, compromising the validity of reported
performance. While detection methods have been developed for the pre-training
and Supervised Fine-Tuning stages, a critical research gap exists for the
increasingly significant phase of Reinforcement Learning (RL) post-training. As
RL post-training becomes pivotal for advancing LLM reasoning, the absence of
specialized contamination detection methods in this paradigm presents a
critical vulnerability. To address this, we conduct the first systematic study
of data detection within RL post-training scenario and propose Self-Critique.
Our method is motivated by a key observation: after RL phase, the output
entropy distribution of LLMs tends to collapse into highly specific and sparse
modes. Self-Critique probes for the underlying policy collapse, i.e., the
model's convergence to a narrow reasoning path, which causes this entropy
reduction. To facilitate this research, we also introduce RL-MIA, a benchmark
constructed to simulate this specific contamination scenario. Extensive
experiments show that Self-Critique significantly outperforms baseline methods
across multiple models and contamination tasks, achieving an AUC improvement of
up to 30%. Whereas existing methods are close to a random guess for RL-phase
contamination, our method makes detection possible.