Détection de la contamination des données par l'apprentissage par renforcement post-entraînement pour les grands modèles de langage

papers.abstract

La contamination des données constitue une menace significative pour l'évaluation fiable des modèles de langage de grande taille (LLMs). Ce problème survient lorsque des échantillons de référence peuvent apparaître involontairement dans les ensembles d'entraînement, compromettant ainsi la validité des performances rapportées. Bien que des méthodes de détection aient été développées pour les étapes de pré-entraînement et de réglage fin supervisé, un manque critique de recherche persiste pour la phase de plus en plus importante de l'apprentissage par renforcement (RL) post-entraînement. Alors que le RL post-entraînement devient crucial pour faire progresser le raisonnement des LLMs, l'absence de méthodes spécialisées de détection de contamination dans ce paradigme représente une vulnérabilité critique. Pour remédier à cela, nous menons la première étude systématique de détection des données dans le contexte du RL post-entraînement et proposons Self-Critique. Notre méthode est motivée par une observation clé : après la phase de RL, la distribution d'entropie des sorties des LLMs tend à s'effondrer en modes très spécifiques et épars. Self-Critique sonde l'effondrement sous-jacent de la politique, c'est-à-dire la convergence du modèle vers un chemin de raisonnement étroit, qui provoque cette réduction d'entropie. Pour faciliter cette recherche, nous introduisons également RL-MIA, un benchmark conçu pour simuler ce scénario spécifique de contamination. Des expériences approfondies montrent que Self-Critique surpasse significativement les méthodes de référence sur plusieurs modèles et tâches de contamination, avec une amélioration de l'AUC allant jusqu'à 30%. Alors que les méthodes existantes sont proches d'une estimation aléatoire pour la contamination en phase de RL, notre méthode rend la détection possible.

English

Data contamination poses a significant threat to the reliable evaluation of Large Language Models (LLMs). This issue arises when benchmark samples may inadvertently appear in training sets, compromising the validity of reported performance. While detection methods have been developed for the pre-training and Supervised Fine-Tuning stages, a critical research gap exists for the increasingly significant phase of Reinforcement Learning (RL) post-training. As RL post-training becomes pivotal for advancing LLM reasoning, the absence of specialized contamination detection methods in this paradigm presents a critical vulnerability. To address this, we conduct the first systematic study of data detection within RL post-training scenario and propose Self-Critique. Our method is motivated by a key observation: after RL phase, the output entropy distribution of LLMs tends to collapse into highly specific and sparse modes. Self-Critique probes for the underlying policy collapse, i.e., the model's convergence to a narrow reasoning path, which causes this entropy reduction. To facilitate this research, we also introduce RL-MIA, a benchmark constructed to simulate this specific contamination scenario. Extensive experiments show that Self-Critique significantly outperforms baseline methods across multiple models and contamination tasks, achieving an AUC improvement of up to 30%. Whereas existing methods are close to a random guess for RL-phase contamination, our method makes detection possible.

Détection de la contamination des données par l'apprentissage par renforcement post-entraînement pour les grands modèles de langage

Detecting Data Contamination from Reinforcement Learning Post-training for Large Language Models

papers.abstract

Support