ChatPaper.aiChatPaper

RLVRトレーニングデータの構造的推論収束による検出

Detecting RLVR Training Data via Structural Convergence of Reasoning

February 12, 2026
著者: Hongbo Zhang, Yue Yang, Jianhao Yan, Guangsheng Bao, Yue Zhang, Yue Zhang
cs.AI

要旨

検証可能な報酬による強化学習(RLVR)は、現代の推論モデルを訓練する上で中心的な手法であるが、非公開の訓練データはベンチマーク汚染に関する懸念を引き起こしている。トークンレベルの確率を用いてモデルを最適化する事前学習法とは異なり、RLVRは自己生成された推論軌跡からの報酬フィードバックに基づいてモデルを微調整するため、従来の尤度ベースの検出手法は効果を発揮しにくい。本論文では、RLVRが特徴的な行動シグナルを誘発することを示す:RLVR訓練中に遭遇したプロンプトでは生成結果がより硬直的かつ均一になる一方、未経験のプロンプトでは多様性が保持される。我々はMin-kNN距離を提案する。これは、単純なブラックボックス検出器であり、与えられたプロンプトに対する複数の補完結果をサンプリングし、k個の最小最近傍編集距離の平均を計算することでこの収縮現象を定量化する。Min-kNN距離は参照モデルやトークン確率へのアクセスを必要としない。複数のRLVR訓練済み推論モデルによる実験により、Min-kNN距離がRL経験事例と未経験事例を確実に識別し、既存のメンバーシップ推論やRL汚染検出のベースライン手法を凌駕することを実証する。
English
Reinforcement learning with verifiable rewards (RLVR) is central to training modern reasoning models, but the undisclosed training data raises concerns about benchmark contamination. Unlike pretraining methods, which optimize models using token-level probabilities, RLVR fine-tunes models based on reward feedback from self-generated reasoning trajectories, making conventional likelihood-based detection methods less effective. We show that RLVR induces a distinctive behavioral signature: prompts encountered during RLVR training result in more rigid and similar generations, while unseen prompts retain greater diversity. We introduce Min-kNN Distance, a simple black-box detector that quantifies this collapse by sampling multiple completions for a given prompt and computing the average of the k smallest nearest-neighbor edit distances. Min-kNN Distance requires no access to the reference model or token probabilities. Experiments across multiple RLVR-trained reasoning models show that Min-kNN Distance reliably distinguishes RL-seen examples from unseen ones and outperforms existing membership inference and RL contamination detection baselines.
PDF11February 14, 2026