Exploração vs. Exploração: Repensando RLVR através de *Clipping*, Entropia e Recompensa Espúria

Resumo

Este artigo examina o trade-off entre exploração e explotação no aprendizado por reforço com recompensas verificáveis (RLVR), uma estrutura para melhorar o raciocínio de Modelos de Linguagem de Grande Porte (LLMs). Estudos recentes sugerem que o RLVR pode eliciar um forte raciocínio matemático em LLMs por meio de dois mecanismos aparentemente paradoxais: recompensas espúrias, que suprimem a explotação ao recompensar resultados não relacionados com a verdade fundamental, e a minimização de entropia, que suprime a exploração ao empurrar o modelo para saídas mais confiantes e determinísticas, destacando uma dinâmica intrigante: tanto desencorajar a explotação quanto desencorajar a exploração melhoram o desempenho do raciocínio, mas os princípios subjacentes que reconciliam esses efeitos permanecem pouco compreendidos. Nós nos concentramos em duas questões fundamentais: (i) como a entropia da política se relaciona com o desempenho, e (ii) se as recompensas espúrias produzem ganhos, potencialmente através da interação do viés de recorte e da contaminação do modelo. Nossos resultados mostram que o viés de recorte sob recompensas espúrias reduz a entropia da política, levando a saídas mais confiantes e determinísticas, enquanto a minimização da entropia por si só é insuficiente para a melhoria. Propomos ainda um modelo de desalinhamento de recompensa que explica por que recompensas espúrias podem melhorar o desempenho para além de configurações contaminadas. Nossas descobertas esclarecem os mecanismos por trás dos benefícios das recompensas espúrias e fornecem princípios para um treinamento RLVR mais eficaz.

English

This paper examines the exploration-exploitation trade-off in reinforcement learning with verifiable rewards (RLVR), a framework for improving the reasoning of Large Language Models (LLMs). Recent studies suggest that RLVR can elicit strong mathematical reasoning in LLMs through two seemingly paradoxical mechanisms: spurious rewards, which suppress exploitation by rewarding outcomes unrelated to the ground truth, and entropy minimization, which suppresses exploration by pushing the model toward more confident and deterministic outputs, highlighting a puzzling dynamic: both discouraging exploitation and discouraging exploration improve reasoning performance, yet the underlying principles that reconcile these effects remain poorly understood. We focus on two fundamental questions: (i) how policy entropy relates to performance, and (ii) whether spurious rewards yield gains, potentially through the interplay of clipping bias and model contamination. Our results show that clipping bias under spurious rewards reduces policy entropy, leading to more confident and deterministic outputs, while entropy minimization alone is insufficient for improvement. We further propose a reward-misalignment model explaining why spurious rewards can enhance performance beyond contaminated settings. Our findings clarify the mechanisms behind spurious-reward benefits and provide principles for more effective RLVR training.

Exploração vs. Exploração: Repensando RLVR através de Clipping, Entropia e Recompensa Espúria

Exploration v.s. Exploitation: Rethinking RLVR through Clipping, Entropy, and Spurious Reward

Resumo

Support