Взлом вознаграждения в обучении с подкреплением на основе рубрик

Аннотация

Обучение с подкреплением с проверяемыми вознаграждениями позволило добиться значительных послетренировочных улучшений в таких областях, как математика и программирование, хотя многие открытые сценарии по-прежнему опираются на вознаграждения на основе рубрик. Мы изучаем взлом вознаграждения в RL на основе рубрик, где политика оптимизируется под тренировочный верификатор, но оценивается с помощью межсемейной панели из трех передовых судей, что снижает зависимость от какого-либо одного оценщика. Наша структура разделяет два источника расхождения: отказ верификатора, при котором тренировочный верификатор засчитывает критерии рубрики, отвергаемые референтными верификаторами, и ограничения дизайна рубрик, при которых даже сильные верификаторы на основе рубрик отдают предпочтение ответам, которые судьи без рубрик в целом оценивают хуже. В медицинской и научной областях слабые верификаторы приводят к значительному росту прокси-вознаграждения, который не переносится на референтные верификаторы; эксплуатация усиливается в процессе обучения и концентрируется на повторяющихся сбоях, таких как частичное удовлетворение составных критериев, трактовка неявного содержания как явного и неточное тематическое соответствие. Более сильные верификаторы существенно снижают, но не устраняют эксплуатацию верификатора. Мы также вводим разрыв самоинтернализации — диагностику без верификатора, основанную на логарифмических вероятностях политики, которая отслеживает качество референтного верификатора, выявляя момент, когда политика, обученная с использованием слабого верификатора, перестает улучшаться. Наконец, в нашем сценарии более строгая проверка не предотвращает взлом вознаграждения, когда рубрика оставляет важные режимы сбоя неуточненными: верификаторы на основе рубрик предпочитают контрольную точку RL, в то время как судьи без рубрик отдают предпочтение базовой модели. Эти расхождения совпадают с выигрышами, сосредоточенными на критериях полноты и присутствия, наряду со снижением фактической корректности, краткости, релевантности и общего качества. В совокупности эти результаты указывают на то, что более строгая проверка снижает взлом вознаграждения, но сама по себе не гарантирует, что выигрыши в рубриках соответствуют более широким улучшениям качества.

English

Reinforcement learning with verifiable rewards has enabled strong post-training gains in domains such as math and coding, though many open-ended settings rely on rubric-based rewards. We study reward hacking in rubric-based RL, where a policy is optimized against a training verifier but evaluated against a cross-family panel of three frontier judges, reducing dependence on any single evaluator. Our framework separates two sources of divergence: verifier failure, where the training verifier credits rubric criteria that reference verifiers reject, and rubric-design limitations, where even strong rubric-based verifiers favor responses that rubric-free judges rate worse overall. Across medical and science domains, weak verifiers produce large proxy-reward gains that do not transfer to the reference verifiers; exploitation grows over training and concentrates in recurring failures such as partial satisfaction of compound criteria, treating implicit content as explicit, and imprecise topical matching. Stronger verifiers substantially reduce, but do not eliminate, verifier exploitation. We also introduce a self-internalization gap, a verifier-free diagnostic based on policy log-probabilities, which tracks reference-verifier quality, detecting when the policy trained using the weak verifier stops improving. Finally, in our setting, stronger verification does not prevent reward hacking when the rubric leaves important failure modes unspecified: rubric-based verifiers prefer the RL checkpoint, while rubric-free judges prefer the base model. These disagreements coincide with gains concentrated in completeness and presence-based criteria, alongside declines in factual correctness, conciseness, relevance, and overall quality. Together, these results suggest that stronger verification reduces reward hacking, but does not by itself ensure that rubric gains correspond to broader quality gains.

Взлом вознаграждения в обучении с подкреплением на основе рубрик

Reward Hacking in Rubric-Based Reinforcement Learning

Аннотация

Support