Erkennung von Datenkontamination durch Reinforcement Learning nach dem Training für große Sprachmodelle
Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models
October 10, 2025
papers.authors: Yongding Tao, Tian Wang, Yihong Dong, Huanyu Liu, Kechi Zhang, Xiaolong Hu, Ge Li
cs.AI
papers.abstract
Datenkontamination stellt eine erhebliche Bedrohung für die zuverlässige Bewertung von Large Language Models (LLMs) dar. Dieses Problem tritt auf, wenn Benchmark-Proben versehentlich in Trainingsdatensätzen auftauchen, was die Gültigkeit der berichteten Leistung beeinträchtigt. Während für die Vorverarbeitungs- und Supervised Fine-Tuning-Phasen bereits Methoden zur Erkennung entwickelt wurden, besteht eine kritische Forschungslücke für die zunehmend bedeutende Phase des Reinforcement Learning (RL) nach dem Training. Da RL nach dem Training entscheidend für die Weiterentwicklung der Argumentationsfähigkeit von LLMs ist, stellt das Fehlen spezialisierter Methoden zur Erkennung von Kontaminationen in diesem Paradigma eine kritische Schwachstelle dar. Um dies zu beheben, führen wir die erste systematische Studie zur Datenerkennung im Kontext von RL nach dem Training durch und schlagen Self-Critique vor. Unsere Methode basiert auf einer zentralen Beobachtung: Nach der RL-Phase neigt die Entropieverteilung der Ausgaben von LLMs dazu, in hochspezifische und spärliche Modi zusammenzubrechen. Self-Critique untersucht den zugrunde liegenden Zusammenbruch der Strategie, d. h. die Konvergenz des Modells auf einen engen Argumentationspfad, der diese Entropiereduktion verursacht. Um diese Forschung zu unterstützen, führen wir auch RL-MIA ein, einen Benchmark, der konstruiert wurde, um dieses spezifische Kontaminationsszenario zu simulieren. Umfangreiche Experimente zeigen, dass Self-Critique Baseline-Methoden bei mehreren Modellen und Kontaminationsaufgaben deutlich übertrifft und eine AUC-Verbesserung von bis zu 30 % erreicht. Während bestehende Methoden bei RL-Phasen-Kontamination nahezu zufällige Ergebnisse liefern, ermöglicht unsere Methode eine zuverlässige Erkennung.
English
Data contamination poses a significant threat to the reliable evaluation of
Large Language Models (LLMs). This issue arises when benchmark samples may
inadvertently appear in training sets, compromising the validity of reported
performance. While detection methods have been developed for the pre-training
and Supervised Fine-Tuning stages, a critical research gap exists for the
increasingly significant phase of Reinforcement Learning (RL) post-training. As
RL post-training becomes pivotal for advancing LLM reasoning, the absence of
specialized contamination detection methods in this paradigm presents a
critical vulnerability. To address this, we conduct the first systematic study
of data detection within RL post-training scenario and propose Self-Critique.
Our method is motivated by a key observation: after RL phase, the output
entropy distribution of LLMs tends to collapse into highly specific and sparse
modes. Self-Critique probes for the underlying policy collapse, i.e., the
model's convergence to a narrow reasoning path, which causes this entropy
reduction. To facilitate this research, we also introduce RL-MIA, a benchmark
constructed to simulate this specific contamination scenario. Extensive
experiments show that Self-Critique significantly outperforms baseline methods
across multiple models and contamination tasks, achieving an AUC improvement of
up to 30%. Whereas existing methods are close to a random guess for RL-phase
contamination, our method makes detection possible.