Detección de Contaminación de Datos en el Post-entrenamiento con Aprendizaje por Refuerzo para Modelos de Lenguaje a Gran Escala
Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models
October 10, 2025
Autores: Yongding Tao, Tian Wang, Yihong Dong, Huanyu Liu, Kechi Zhang, Xiaolong Hu, Ge Li
cs.AI
Resumen
La contaminación de datos representa una amenaza significativa para la evaluación confiable de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). Este problema surge cuando muestras de referencia pueden aparecer inadvertidamente en los conjuntos de entrenamiento, comprometiendo la validez del rendimiento reportado. Si bien se han desarrollado métodos de detección para las etapas de preentrenamiento y ajuste fino supervisado, existe una brecha crítica de investigación para la fase cada vez más relevante del aprendizaje por refuerzo (RL, por sus siglas en inglés) posterior al entrenamiento. A medida que el RL posterior al entrenamiento se vuelve fundamental para avanzar en el razonamiento de los LLMs, la ausencia de métodos especializados de detección de contaminación en este paradigma representa una vulnerabilidad crítica. Para abordar esto, realizamos el primer estudio sistemático de detección de datos en el escenario de RL posterior al entrenamiento y proponemos el método de Autocrítica. Nuestro enfoque se basa en una observación clave: después de la fase de RL, la distribución de entropía de las salidas de los LLMs tiende a colapsar en modos altamente específicos y dispersos. La Autocrítica busca identificar el colapso subyacente de la política, es decir, la convergencia del modelo hacia un camino de razonamiento estrecho, que causa esta reducción de entropía. Para facilitar esta investigación, también presentamos RL-MIA, un punto de referencia construido para simular este escenario específico de contaminación. Experimentos exhaustivos demuestran que la Autocrítica supera significativamente a los métodos de referencia en múltiples modelos y tareas de contaminación, logrando una mejora en el AUC de hasta un 30%. Mientras que los métodos existentes se acercan a una suposición aleatoria para la contaminación en la fase de RL, nuestro método hace posible la detección.
English
Data contamination poses a significant threat to the reliable evaluation of
Large Language Models (LLMs). This issue arises when benchmark samples may
inadvertently appear in training sets, compromising the validity of reported
performance. While detection methods have been developed for the pre-training
and Supervised Fine-Tuning stages, a critical research gap exists for the
increasingly significant phase of Reinforcement Learning (RL) post-training. As
RL post-training becomes pivotal for advancing LLM reasoning, the absence of
specialized contamination detection methods in this paradigm presents a
critical vulnerability. To address this, we conduct the first systematic study
of data detection within RL post-training scenario and propose Self-Critique.
Our method is motivated by a key observation: after RL phase, the output
entropy distribution of LLMs tends to collapse into highly specific and sparse
modes. Self-Critique probes for the underlying policy collapse, i.e., the
model's convergence to a narrow reasoning path, which causes this entropy
reduction. To facilitate this research, we also introduce RL-MIA, a benchmark
constructed to simulate this specific contamination scenario. Extensive
experiments show that Self-Critique significantly outperforms baseline methods
across multiple models and contamination tasks, achieving an AUC improvement of
up to 30%. Whereas existing methods are close to a random guess for RL-phase
contamination, our method makes detection possible.