ChatPaper.aiChatPaper

Исследование против эксплуатации: переосмысление RLVR через ограничение, энтропию и ложные вознаграждения

Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

December 18, 2025
Авторы: Peter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin
cs.AI

Аннотация

В данной работе исследуется компромисс между исследованием и эксплуатацией в обучении с подкреплением с верифицируемыми вознаграждениями (RLVR) — подходе, направленном на улучшение способности к рассуждению у больших языковых моделей (LLM). Недавние исследования показывают, что RLVR может стимулировать развитие сильных математических навыков рассуждения в LLM за счет двух, казалось бы, парадоксальных механизмов: ложных вознаграждений, которые подавляют эксплуатацию, поощряя результаты, не связанные с истинным ответом, и минимизации энтропии, которая подавляет исследование, подталкивая модель к более уверенным и детерминированным выходам. Это выявляет загадочную динамику: как подавление эксплуатации, так и подавление исследования улучшают результаты рассуждений, однако базовые принципы, объясняющие эти эффекты, остаются малоизученными. Мы сосредотачиваемся на двух фундаментальных вопросах: (i) как энтропия политики связана с производительностью и (ii) приводят ли ложные вознаграждения к улучшениям, возможно, за счет взаимодействия смещения ограничения (clipping bias) и контаминации модели. Наши результаты показывают, что смещение ограничения при ложных вознаграждениях снижает энтропию политики, что приводит к более уверенным и детерминированным выходам, в то время как одна лишь минимизация энтропии недостаточна для улучшения. Мы также предлагаем модель рассогласования вознаграждений, объясняющую, почему ложные вознаграждения могут повышать производительность и за пределами условий контаминации. Наши выводы проясняют механизмы, лежащие в основе преимуществ ложных вознаграждений, и предлагают принципы для более эффективного обучения по методу RLVR.
English
This paper examines the exploration-exploitation trade-off in reinforcement learning with verifiable rewards (RLVR), a framework for improving the reasoning of Large Language Models (LLMs). Recent studies suggest that RLVR can elicit strong mathematical reasoning in LLMs through two seemingly paradoxical mechanisms: spurious rewards, which suppress exploitation by rewarding outcomes unrelated to the ground truth, and entropy minimization, which suppresses exploration by pushing the model toward more confident and deterministic outputs, highlighting a puzzling dynamic: both discouraging exploitation and discouraging exploration improve reasoning performance, yet the underlying principles that reconcile these effects remain poorly understood. We focus on two fundamental questions: (i) how policy entropy relates to performance, and (ii) whether spurious rewards yield gains, potentially through the interplay of clipping bias and model contamination. Our results show that clipping bias under spurious rewards reduces policy entropy, leading to more confident and deterministic outputs, while entropy minimization alone is insufficient for improvement. We further propose a reward-misalignment model explaining why spurious rewards can enhance performance beyond contaminated settings. Our findings clarify the mechanisms behind spurious-reward benefits and provide principles for more effective RLVR training.
PDF92December 20, 2025