Détection des données d'entraînement RLVR par convergence structurelle du raisonnement
Detecting RLVR Training Data via Structural Convergence of Reasoning
February 12, 2026
papers.authors: Hongbo Zhang, Yue Yang, Jianhao Yan, Guangsheng Bao, Yue Zhang, Yue Zhang
cs.AI
papers.abstract
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est essentiel pour l'entraînement des modèles de raisonnement modernes, mais la non-divulgation des données d'entraînement soulève des préoccupations concernant la contamination des benchmarks. Contrairement aux méthodes de pré-entraînement qui optimisent les modèles en utilisant des probabilités au niveau des tokens, le RLVR affine les modèles sur la base de retours de récompense provenant de trajectoires de raisonnement auto-générées, ce qui rend les méthodes de détection conventionnelles basées sur la vraisemblance moins efficaces. Nous démontrons que le RLVR induit une signature comportementale distinctive : les prompts rencontrés pendant l'entraînement RLVR produisent des générations plus rigides et similaires, tandis que les prompts non vus conservent une plus grande diversité. Nous présentons Min-kNN Distance, un détecteur simple en boîte noire qui quantifie cet effondrement en échantillonnant plusieurs complétions pour un prompt donné et en calculant la moyenne des k plus petites distances d'édition des plus proches voisins. Min-kNN Distance ne nécessite aucun accès au modèle de référence ni aux probabilités des tokens. Des expériences sur plusieurs modèles de raisonnement entraînés par RLVR montrent que Min-kNN Distance distingue de manière fiable les exemples vus par RL de ceux non vus et surpasse les méthodes de référence existantes en inférence d'appartenance et en détection de contamination RL.
English
Reinforcement learning with verifiable rewards (RLVR) is central to training modern reasoning models, but the undisclosed training data raises concerns about benchmark contamination. Unlike pretraining methods, which optimize models using token-level probabilities, RLVR fine-tunes models based on reward feedback from self-generated reasoning trajectories, making conventional likelihood-based detection methods less effective. We show that RLVR induces a distinctive behavioral signature: prompts encountered during RLVR training result in more rigid and similar generations, while unseen prompts retain greater diversity. We introduce Min-kNN Distance, a simple black-box detector that quantifies this collapse by sampling multiple completions for a given prompt and computing the average of the k smallest nearest-neighbor edit distances. Min-kNN Distance requires no access to the reference model or token probabilities. Experiments across multiple RLVR-trained reasoning models show that Min-kNN Distance reliably distinguishes RL-seen examples from unseen ones and outperforms existing membership inference and RL contamination detection baselines.