ChatPaper.aiChatPaper

Exploration contre Exploitation : Repenser RLVR par l'Écrêtage, l'Entropie et la Récompense Parasite

Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

December 18, 2025
papers.authors: Peter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin
cs.AI

papers.abstract

Ce travail examine le compromis exploration-exploitation dans l'apprentissage par renforcement avec récompenses vérifiables (RLVR), un cadre visant à améliorer le raisonnement des grands modèles de langage (LLM). Des études récentes suggèrent que le RLVR peut susciter un raisonnement mathématique solide dans les LLM via deux mécanismes apparemment paradoxaux : les récompenses fallacieuses, qui suppriment l'exploitation en récompensant des résultats sans lien avec la vérité terrain, et la minimisation de l'entropie, qui supprime l'exploration en poussant le modèle vers des sorties plus confiantes et déterministes. Cela met en lumière une dynamique déroutante : décourager à la fois l'exploitation et l'exploration améliore les performances de raisonnement, mais les principes sous-jacents qui concilient ces effets restent mal compris. Nous nous concentrons sur deux questions fondamentales : (i) comment l'entropie de la politique est liée aux performances, et (ii) si les récompenses fallacieuses produisent des gains, potentiellement via l'interaction du biais d'écrêtage et de la contamination du modèle. Nos résultats montrent que le biais d'écrêtage sous des récompenses fallacieuses réduit l'entropie de la politique, conduisant à des sorties plus confiantes et déterministes, tandis que la minimisation de l'entropie seule est insuffisante pour obtenir une amélioration. Nous proposons en outre un modèle de désalignement des récompenses expliquant pourquoi les récompenses fallacieuses peuvent améliorer les performances au-delà des contextes contaminés. Nos résultats clarifient les mécanismes sous-tendant les bénéfices des récompenses fallacieuses et fournissent des principes pour un entraînement RLVR plus efficace.
English
This paper examines the exploration-exploitation trade-off in reinforcement learning with verifiable rewards (RLVR), a framework for improving the reasoning of Large Language Models (LLMs). Recent studies suggest that RLVR can elicit strong mathematical reasoning in LLMs through two seemingly paradoxical mechanisms: spurious rewards, which suppress exploitation by rewarding outcomes unrelated to the ground truth, and entropy minimization, which suppresses exploration by pushing the model toward more confident and deterministic outputs, highlighting a puzzling dynamic: both discouraging exploitation and discouraging exploration improve reasoning performance, yet the underlying principles that reconcile these effects remain poorly understood. We focus on two fundamental questions: (i) how policy entropy relates to performance, and (ii) whether spurious rewards yield gains, potentially through the interplay of clipping bias and model contamination. Our results show that clipping bias under spurious rewards reduces policy entropy, leading to more confident and deterministic outputs, while entropy minimization alone is insufficient for improvement. We further propose a reward-misalignment model explaining why spurious rewards can enhance performance beyond contaminated settings. Our findings clarify the mechanisms behind spurious-reward benefits and provide principles for more effective RLVR training.
PDF92December 20, 2025