ChatPaper.aiChatPaper

Esplorazione contro Sfruttamento: Ripensare RLVR attraverso Clipping, Entropia e Ricompense Spurie

Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

December 18, 2025
Autori: Peter Chen, Xiaopeng Li, Ziniu Li, Wotao Yin, Xi Chen, Tianyi Lin
cs.AI

Abstract

Questo studio esamina il trade-off esplorazione-sfruttamento nell'apprendimento per rinforzo con ricompense verificabili (RLVR), un framework volto a migliorare le capacità di ragionamento dei Large Language Model (LLM). Ricerche recenti indicano che l'RLVR può potenziare il ragionamento matematico degli LLM mediante due meccanismi apparentemente paradossali: le ricompense spurie, che inibiscono lo sfruttamento premiando risultati non correlati alla verità di base, e la minimizzazione dell'entropia, che sopprime l'esplorazione spingendo il modello verso output più confidenti e deterministici. Emerge così una dinamica controintuitiva: sia lo scoraggiamento dello sfruttamento che quello dell'esplorazione migliorano le prestazioni di ragionamento, sebbene i principi sottostanti che riconciliano questi effetti rimangano poco compresi. Ci concentriamo su due questioni fondamentali: (i) come l'entropia della politica si relazioni alle prestazioni, e (ii) se le ricompense spurie producano vantaggi, potenzialmente attraverso l'interazione tra clipping bias e contaminazione del modello. I nostri risultati dimostrano che il clipping bias sotto ricompense spurie riduce l'entropia della politica, conducendo a output più confidenti e deterministici, mentre la minimizzazione dell'entropia da sola risulta insufficiente per ottenere miglioramenti. Proponiamo inoltre un modello di disallineamento delle ricompense che spiega perché le ricompense spurie possono migliorare le prestazioni oltre contesti contaminati. I nostri risultati chiariscono i meccanismi alla base dei benefici delle ricompense spurie e forniscono principi per un addestramento RLVR più efficace.
English
This paper examines the exploration-exploitation trade-off in reinforcement learning with verifiable rewards (RLVR), a framework for improving the reasoning of Large Language Models (LLMs). Recent studies suggest that RLVR can elicit strong mathematical reasoning in LLMs through two seemingly paradoxical mechanisms: spurious rewards, which suppress exploitation by rewarding outcomes unrelated to the ground truth, and entropy minimization, which suppresses exploration by pushing the model toward more confident and deterministic outputs, highlighting a puzzling dynamic: both discouraging exploitation and discouraging exploration improve reasoning performance, yet the underlying principles that reconcile these effects remain poorly understood. We focus on two fundamental questions: (i) how policy entropy relates to performance, and (ii) whether spurious rewards yield gains, potentially through the interplay of clipping bias and model contamination. Our results show that clipping bias under spurious rewards reduces policy entropy, leading to more confident and deterministic outputs, while entropy minimization alone is insufficient for improvement. We further propose a reward-misalignment model explaining why spurious rewards can enhance performance beyond contaminated settings. Our findings clarify the mechanisms behind spurious-reward benefits and provide principles for more effective RLVR training.
PDF102December 21, 2025