ChatPaper.aiChatPaper

Exploration vs. Exploitation: Eine Neubetrachtung von RLVR durch Clipping, Entropie und trügerische Belohnungen

Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

December 18, 2025
papers.authors: Peter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin
cs.AI

papers.abstract

Diese Arbeit untersucht den Exploration-Exploitation-Trade-off im Reinforcement Learning mit verifizierbaren Belohnungen (RLVR), einem Rahmenwerk zur Verbesserung des logischen Denkens von Large Language Models (LLMs). Jüngste Studien deuten darauf hin, dass RLVR durch zwei scheinbar paradoxe Mechanismen starkes mathematisches Denken in LLMs hervorrufen kann: durch fehlerhafte Belohnungen, welche die Exploitation unterdrücken, indem Ergebnisse belohnt werden, die nicht mit der Grundwahrheit zusammenhängen, und durch Entropieminimierung, welche die Exploration unterdrückt, indem das Modell zu zuversichtlicheren und deterministischeren Ausgaben gedrängt wird. Dies verdeutlicht eine rätselhafte Dynamik: Sowohl die Unterdrückung von Exploitation als auch die Unterdrückung von Exploration verbessern die Denkleistung, doch die zugrundeliegenden Prinzipien, die diese Effekte in Einklang bringen, sind nach wie vor kaum verstanden. Wir konzentrieren uns auf zwei grundlegende Fragen: (i) wie sich die Policy-Entropie auf die Leistung auswirkt und (ii) ob fehlerhafte Belohnungen Gewinne erzielen, möglicherweise durch das Zusammenspiel von Clipping-Bias und Modellkontamination. Unsere Ergebnisse zeigen, dass der Clipping-Bias unter fehlerhaften Belohnungen die Policy-Entropie verringert, was zu zuversichtlicheren und deterministischeren Ausgaben führt, während Entropieminimierung allein für eine Verbesserung nicht ausreicht. Wir schlagen weiterhin ein Modell der Belohnungsfehlausrichtung vor, das erklärt, warum fehlerhafte Belohnungen die Leistung auch über kontaminierte Settings hinaus steigern können. Unsere Erkenntnisse klären die Mechanismen hinter den Vorteilen fehlerhafter Belohnungen auf und liefern Prinzipien für ein effektiveres RLVR-Training.
English
This paper examines the exploration-exploitation trade-off in reinforcement learning with verifiable rewards (RLVR), a framework for improving the reasoning of Large Language Models (LLMs). Recent studies suggest that RLVR can elicit strong mathematical reasoning in LLMs through two seemingly paradoxical mechanisms: spurious rewards, which suppress exploitation by rewarding outcomes unrelated to the ground truth, and entropy minimization, which suppresses exploration by pushing the model toward more confident and deterministic outputs, highlighting a puzzling dynamic: both discouraging exploitation and discouraging exploration improve reasoning performance, yet the underlying principles that reconcile these effects remain poorly understood. We focus on two fundamental questions: (i) how policy entropy relates to performance, and (ii) whether spurious rewards yield gains, potentially through the interplay of clipping bias and model contamination. Our results show that clipping bias under spurious rewards reduces policy entropy, leading to more confident and deterministic outputs, while entropy minimization alone is insufficient for improvement. We further propose a reward-misalignment model explaining why spurious rewards can enhance performance beyond contaminated settings. Our findings clarify the mechanisms behind spurious-reward benefits and provide principles for more effective RLVR training.
PDF92December 20, 2025