LaRA: Análisis de Representación por Capas para Detectar Contaminación de Datos en el Post-Entrenamiento de RL

Resumen

El entrenamiento posterior con aprendizaje por refuerzo (RL) ha demostrado mejorar el razonamiento en modelos de lenguaje grandes (LLMs). Sin embargo, se ha explorado poco el problema de la contaminación de datos en el entrenamiento posterior con RL, lo que podría comprometer la generalización y la fiabilidad de la evaluación del propio proceso de entrenamiento. Los métodos de detección existentes se basan principalmente en señales a nivel de salida, como la verosimilitud o la entropía, que resultan poco fiables para modelos entrenados con RL, ya que el RL moldea el comportamiento mediante recompensas a nivel de trayectoria, no mediante verosimilitudes de tokens. Proponemos LaRA, un marco de análisis de representaciones por capas para detectar contaminación en LLMs entrenados posteriormente con RL. LaRA introduce tres métricas complementarias que miden la sensibilidad a perturbaciones, el colapso direccional y la rigidez local de representaciones bajo perturbaciones controladas. Descubrimos que la contaminación produce desviaciones geométricas progresivas a través de las capas, incluyendo una sensibilidad a perturbaciones amplificada, un colapso direccional más fuerte y una rigidez local incrementada. A partir de estos hallazgos, también desarrollamos un protocolo de detección de contaminación que agrega desviaciones a nivel de representación a través de capas y métricas. Experimentos con modelos de razonamiento entrenados con RL muestran que nuestro protocolo supera a las líneas base existentes basadas en señales a nivel de salida para la detección de contaminación.

English

Reinforcement learning (RL) post-training has shown to improve reasoning in large language models (LLMs). However, there has been little exploration on the problem of data contamination in RL post-training, potentially undermining generalization and evaluation reliability of the training process itself. Existing detection methods primarily rely on output-level signals such as likelihood or entropy, which become unreliable for RL-trained models since RL shapes behavior through trajectory-level rewards rather than token likelihoods. We propose LaRA, a layer-wise representation analysis framework for detecting contamination in RL post-trained LLMs. LaRA introduces three complementary metrics, measuring perturbation sensitivity, directional collapse, and local representation rigidity under controlled perturbations. We find that contamination produces progressive geometric deviations across layers, including amplified perturbation sensitivity, stronger directional collapse, and enhanced local rigidity. Based on our findings, we also develop a contamination detection protocol that aggregates representation-level deviations across layers and metrics. Experiments on RL-trained reasoning models show that our protocol outperforms existing output-level baselines for contamination detection.