사고 과정의 구조적 수렴을 통한 RLVR 훈련 데이터 탐지
Detecting RLVR Training Data via Structural Convergence of Reasoning
February 12, 2026
저자: Hongbo Zhang, Yue Yang, Jianhao Yan, Guangsheng Bao, Yue Zhang, Yue Zhang
cs.AI
초록
검증 가능한 보상을 활용한 강화 학습(RLVR)은 현대 추론 모델 훈련의 핵심이지만, 공개되지 않은 훈련 데이터는 벤치마크 오염에 대한 우려를 제기합니다. 토큰 수준 확률을 사용해 모델을 최적화하는 사전 학습 방법과 달리, RLVR은 모델이 자체 생성한 추론 경로에 대한 보상 피드백을 기반으로 미세 조정을 수행하므로 기존의 가능도 기반 탐지 방법의 효과가 떨어집니다. 우리는 RLVR이 특이한 행동 신호를 유발함을 보입니다: RLVR 훈련 중 접한 프롬프트는 더 경직되고 유사한 생성을 초래하는 반면, 접하지 않은 프롬프트는 더 큰 다양성을 유지합니다. 우리는 Min-kNN 거리라는 간단한 블랙박스 탐지기를 제안합니다. 이 방법은 주어진 프롬프트에 대해 여러 개의 완성 텍스트를 샘플링하고, k-최소 근접 이웃 편집 거리의 평균을 계산하여 이러한 붕괴 현상을 정량화합니다. Min-kNN 거리는 참조 모델이나 토큰 확률에 대한 접근이 필요하지 않습니다. 여러 RLVR로 훈련된 추론 모델에 대한 실험 결과, Min-kNN 거리는 RL로 접한 예시와 접하지 않은 예시를 안정적으로 구분하며, 기존의 멤버십 추론 및 RL 오염 탐지 기준선을 능가하는 성능을 보여줍니다.
English
Reinforcement learning with verifiable rewards (RLVR) is central to training modern reasoning models, but the undisclosed training data raises concerns about benchmark contamination. Unlike pretraining methods, which optimize models using token-level probabilities, RLVR fine-tunes models based on reward feedback from self-generated reasoning trajectories, making conventional likelihood-based detection methods less effective. We show that RLVR induces a distinctive behavioral signature: prompts encountered during RLVR training result in more rigid and similar generations, while unseen prompts retain greater diversity. We introduce Min-kNN Distance, a simple black-box detector that quantifies this collapse by sampling multiple completions for a given prompt and computing the average of the k smallest nearest-neighbor edit distances. Min-kNN Distance requires no access to the reference model or token probabilities. Experiments across multiple RLVR-trained reasoning models show that Min-kNN Distance reliably distinguishes RL-seen examples from unseen ones and outperforms existing membership inference and RL contamination detection baselines.