Raciocínio com Exploração: Uma Perspectiva de Entropia

Resumo

O equilíbrio entre exploração e explotação é um objetivo central no aprendizado por reforço (RL). Apesar dos avanços recentes no aprimoramento do raciocínio de modelos de linguagem (LM), a maioria dos métodos tende à explotação e, cada vez mais, encontra platôs de desempenho. Neste trabalho, revisitamos a entropia — um sinal de exploração no RL — e examinamos sua relação com o raciocínio exploratório em LMs. Por meio de análises empíricas, descobrimos fortes correlações positivas entre regiões de alta entropia e três tipos de ações de raciocínio exploratório: (1) tokens pivôs que determinam ou conectam etapas lógicas, (2) ações reflexivas, como autoverificação e correção, e (3) comportamentos raros pouco explorados pelos LMs base. Motivados por isso, introduzimos uma modificação mínima ao RL padrão com apenas uma linha de código: aumentamos a função de vantagem com um termo baseado em entropia. Diferentemente dos métodos tradicionais de máxima entropia, que incentivam a exploração promovendo incerteza, incentivamos a exploração promovendo cadeias de raciocínio mais longas e profundas. Notavelmente, nosso método alcança ganhos significativos na métrica Pass@K — um estimador de limite superior das capacidades de raciocínio de LMs — mesmo quando avaliado com valores extremamente grandes de K, expandindo os limites do raciocínio de LMs.

English

Balancing exploration and exploitation is a central goal in reinforcement learning (RL). Despite recent advances in enhancing language model (LM) reasoning, most methods lean toward exploitation, and increasingly encounter performance plateaus. In this work, we revisit entropy -- a signal of exploration in RL -- and examine its relationship to exploratory reasoning in LMs. Through empirical analysis, we uncover strong positive correlations between high-entropy regions and three types of exploratory reasoning actions: (1) pivotal tokens that determine or connect logical steps, (2) reflective actions such as self-verification and correction, and (3) rare behaviors under-explored by the base LMs. Motivated by this, we introduce a minimal modification to standard RL with only one line of code: augmenting the advantage function with an entropy-based term. Unlike traditional maximum-entropy methods which encourage exploration by promoting uncertainty, we encourage exploration by promoting longer and deeper reasoning chains. Notably, our method achieves significant gains on the Pass@K metric -- an upper-bound estimator of LM reasoning capabilities -- even when evaluated with extremely large K values, pushing the boundaries of LM reasoning.

Raciocínio com Exploração: Uma Perspectiva de Entropia

Reasoning with Exploration: An Entropy Perspective

Resumo

Support