Обнаружение обучающих данных RLVR через структурную конвергенцию рассуждений
Detecting RLVR Training Data via Structural Convergence of Reasoning
February 12, 2026
Авторы: Hongbo Zhang, Yue Yang, Jianhao Yan, Guangsheng Bao, Yue Zhang, Yue Zhang
cs.AI
Аннотация
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) играет ключевую роль в тренировке современных моделей логического мышления, однако использование нераскрытых обучающих данных вызывает опасения по поводу контаминации тестовых наборов. В отличие от методов предварительного обучения, которые оптимизируют модели с использованием вероятностей на уровне токенов, RLVR дообучает модели на основе обратной связи в виде вознаграждения за самостоятельно сгенерированные траектории рассуждений, что снижает эффективность традиционных методов обнаружения, основанных на правдоподобии. Мы демонстрируем, что RLVR порождает характерный поведенческий паттерн: промпты, встречавшиеся во время обучения RLVR, приводят к более жестким и однообразным генерациям, тогда как непредъявленные промпты сохраняют бо́льшее разнообразие. Мы представляем Min-kNN Distance — простой детектор типа «черный ящик», который количественно оценивает это схлопывание путем сэмплирования нескольких завершений для заданного промпта и вычисления среднего значения k наименьших расстояний до ближайших соседей, основанных на редакционном расстоянии. Min-kNN Distance не требует доступа к исходной модели или вероятностям токенов. Эксперименты с различными моделями рассуждений, обученными с помощью RLVR, показывают, что Min-kNN Distance надежно отличает примеры, виденные моделью во время RL, от невиденных и превосходит существующие базовые методы вывода о принадлежности к обучающей выборке и обнаружения контаминации от RL.
English
Reinforcement learning with verifiable rewards (RLVR) is central to training modern reasoning models, but the undisclosed training data raises concerns about benchmark contamination. Unlike pretraining methods, which optimize models using token-level probabilities, RLVR fine-tunes models based on reward feedback from self-generated reasoning trajectories, making conventional likelihood-based detection methods less effective. We show that RLVR induces a distinctive behavioral signature: prompts encountered during RLVR training result in more rigid and similar generations, while unseen prompts retain greater diversity. We introduce Min-kNN Distance, a simple black-box detector that quantifies this collapse by sampling multiple completions for a given prompt and computing the average of the k smallest nearest-neighbor edit distances. Min-kNN Distance requires no access to the reference model or token probabilities. Experiments across multiple RLVR-trained reasoning models show that Min-kNN Distance reliably distinguishes RL-seen examples from unseen ones and outperforms existing membership inference and RL contamination detection baselines.