Rilevamento della Contaminazione dei Dati dal Post-Addestramento con Apprendimento per Rinforzo nei Modelli Linguistici di Grandi Dimensioni
Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models
October 10, 2025
Autori: Yongding Tao, Tian Wang, Yihong Dong, Huanyu Liu, Kechi Zhang, Xiaolong Hu, Ge Li
cs.AI
Abstract
La contaminazione dei dati rappresenta una minaccia significativa per la valutazione affidabile dei Modelli Linguistici di Grande Dimensione (LLM). Questo problema si verifica quando campioni di benchmark possono apparire involontariamente nei set di addestramento, compromettendo la validità delle prestazioni riportate. Sebbene siano stati sviluppati metodi di rilevamento per le fasi di pre-addestramento e di Fine-Tuning Supervisionato, esiste un'importante lacuna di ricerca per la fase sempre più cruciale del Post-Addestramento con Apprendimento per Rinforzo (RL). Poiché il post-addestramento RL sta diventando fondamentale per migliorare il ragionamento degli LLM, l'assenza di metodi specializzati per il rilevamento della contaminazione in questo paradigma rappresenta una vulnerabilità critica. Per affrontare questo problema, conduciamo il primo studio sistematico sul rilevamento dei dati nello scenario di post-addestramento RL e proponiamo Self-Critique. Il nostro metodo è motivato da un'osservazione chiave: dopo la fase RL, la distribuzione dell'entropia dell'output degli LLM tende a collassare in modalità altamente specifiche e sparse. Self-Critique esamina il collasso della politica sottostante, ovvero la convergenza del modello su un percorso di ragionamento ristretto, che causa questa riduzione dell'entropia. Per facilitare questa ricerca, introduciamo anche RL-MIA, un benchmark costruito per simulare questo specifico scenario di contaminazione. Esperimenti estesi dimostrano che Self-Critique supera significativamente i metodi di base su più modelli e compiti di contaminazione, ottenendo un miglioramento dell'AUC fino al 30%. Mentre i metodi esistenti sono vicini a una scelta casuale per la contaminazione nella fase RL, il nostro metodo rende possibile il rilevamento.
English
Data contamination poses a significant threat to the reliable evaluation of
Large Language Models (LLMs). This issue arises when benchmark samples may
inadvertently appear in training sets, compromising the validity of reported
performance. While detection methods have been developed for the pre-training
and Supervised Fine-Tuning stages, a critical research gap exists for the
increasingly significant phase of Reinforcement Learning (RL) post-training. As
RL post-training becomes pivotal for advancing LLM reasoning, the absence of
specialized contamination detection methods in this paradigm presents a
critical vulnerability. To address this, we conduct the first systematic study
of data detection within RL post-training scenario and propose Self-Critique.
Our method is motivated by a key observation: after RL phase, the output
entropy distribution of LLMs tends to collapse into highly specific and sparse
modes. Self-Critique probes for the underlying policy collapse, i.e., the
model's convergence to a narrow reasoning path, which causes this entropy
reduction. To facilitate this research, we also introduce RL-MIA, a benchmark
constructed to simulate this specific contamination scenario. Extensive
experiments show that Self-Critique significantly outperforms baseline methods
across multiple models and contamination tasks, achieving an AUC improvement of
up to 30%. Whereas existing methods are close to a random guess for RL-phase
contamination, our method makes detection possible.