ChatPaper.aiChatPaper

Exploratie versus exploitatie: een herbezinning op RLVR via clipping, entropie en spurious reward

Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

December 18, 2025
Auteurs: Peter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin
cs.AI

Samenvatting

Dit artikel onderzoekt de exploration-exploitation trade-off bij reinforcement learning met verifieerbare beloningen (RLVR), een raamwerk voor het verbeteren van het redeneervermogen van large language models (LLM's). Recente studies suggereren dat RLVR sterk wiskundig redeneervermogen bij LLM's kan opwekken via twee schijnbaar paradoxale mechanismen: *spurious rewards* (valse beloningen), die exploitatie onderdrukken door resultaten te belonen die niet gerelateerd zijn aan de grondwaarheid, en entropieminimalisatie, die exploratie onderdrukt door het model richting zelfverzekerdere en deterministischere outputs te sturen. Dit belicht een raadselachtige dynamiek: zowel het ontmoedigen van exploitatie als het ontmoedigen van exploratie verbetert de redeneerprestaties, maar de onderliggende principes die deze effecten verzoenen blijven slecht begrepen. Wij richten ons op twee fundamentele vragen: (i) hoe beleidsentropie zich verhoudt tot prestaties, en (ii) of *spurious rewards* winst opleveren, mogelijk via de wisselwerking van *clipping bias* en modelcontaminatie. Onze resultaten tonen aan dat *clipping bias* onder *spurious rewards* de beleidsentropie verlaagt, wat leidt tot zelfverzekerdere en deterministischere outputs, terwijl entropieminimalisatie alleen onvoldoende is voor verbetering. Wij stellen verder een model van beloningsmisalignatie voor dat verklaart waarom *spurious rewards* de prestaties kunnen verbeteren, zelfs buiten gecontamineerde settings. Onze bevindingen verduidelijken de mechanismen achter de voordelen van *spurious rewards* en bieden principes voor effectievere RLVR-training.
English
This paper examines the exploration-exploitation trade-off in reinforcement learning with verifiable rewards (RLVR), a framework for improving the reasoning of Large Language Models (LLMs). Recent studies suggest that RLVR can elicit strong mathematical reasoning in LLMs through two seemingly paradoxical mechanisms: spurious rewards, which suppress exploitation by rewarding outcomes unrelated to the ground truth, and entropy minimization, which suppresses exploration by pushing the model toward more confident and deterministic outputs, highlighting a puzzling dynamic: both discouraging exploitation and discouraging exploration improve reasoning performance, yet the underlying principles that reconcile these effects remain poorly understood. We focus on two fundamental questions: (i) how policy entropy relates to performance, and (ii) whether spurious rewards yield gains, potentially through the interplay of clipping bias and model contamination. Our results show that clipping bias under spurious rewards reduces policy entropy, leading to more confident and deterministic outputs, while entropy minimization alone is insufficient for improvement. We further propose a reward-misalignment model explaining why spurious rewards can enhance performance beyond contaminated settings. Our findings clarify the mechanisms behind spurious-reward benefits and provide principles for more effective RLVR training.
PDF102December 31, 2025