LaRA : Analyse de représentation par couche pour la détection de la contamination des données dans le post-entraînement en RL

Résumé

Le post-entraînement par apprentissage par renforcement (AR) a démontré sa capacité à améliorer le raisonnement dans les grands modèles de langage (GML). Cependant, le problème de la contamination des données lors du post-entraînement par AR a été peu exploré, ce qui peut compromettre la généralisation et la fiabilité de l'évaluation du processus d'entraînement lui-même. Les méthodes de détection existantes reposent principalement sur des signaux au niveau des sorties, tels que la vraisemblance ou l'entropie, qui deviennent peu fiables pour les modèles entraînés par AR, car l'AR façonne le comportement via des récompenses au niveau des trajectoires plutôt que par les vraisemblances des tokens. Nous proposons LaRA, un cadre d'analyse des représentations par couche pour détecter la contamination dans les GML post-entraînés par AR. LaRA introduit trois métriques complémentaires, mesurant la sensibilité aux perturbations, l'effondrement directionnel et la rigidité locale des représentations sous des perturbations contrôlées. Nous constatons que la contamination produit des déviations géométriques progressives à travers les couches, notamment une sensibilité accrue aux perturbations, un effondrement directionnel plus marqué et une rigidité locale renforcée. Sur la base de nos résultats, nous développons également un protocole de détection de la contamination qui agrège les déviations au niveau des représentations à travers les couches et les métriques. Des expériences sur des modèles de raisonnement entraînés par AR montrent que notre protocole surpasse les méthodes de référence existantes basées sur les signaux de sortie pour la détection de la contamination.

English

Reinforcement learning (RL) post-training has shown to improve reasoning in large language models (LLMs). However, there has been little exploration on the problem of data contamination in RL post-training, potentially undermining generalization and evaluation reliability of the training process itself. Existing detection methods primarily rely on output-level signals such as likelihood or entropy, which become unreliable for RL-trained models since RL shapes behavior through trajectory-level rewards rather than token likelihoods. We propose LaRA, a layer-wise representation analysis framework for detecting contamination in RL post-trained LLMs. LaRA introduces three complementary metrics, measuring perturbation sensitivity, directional collapse, and local representation rigidity under controlled perturbations. We find that contamination produces progressive geometric deviations across layers, including amplified perturbation sensitivity, stronger directional collapse, and enhanced local rigidity. Based on our findings, we also develop a contamination detection protocol that aggregates representation-level deviations across layers and metrics. Experiments on RL-trained reasoning models show that our protocol outperforms existing output-level baselines for contamination detection.