Raciocínio com Exploração: Uma Perspectiva de Entropia
Reasoning with Exploration: An Entropy Perspective
June 17, 2025
Autores: Daixuan Cheng, Shaohan Huang, Xuekai Zhu, Bo Dai, Wayne Xin Zhao, Zhenliang Zhang, Furu Wei
cs.AI
Resumo
O equilíbrio entre exploração e explotação é um objetivo central no aprendizado por reforço (RL). Apesar dos avanços recentes no aprimoramento do raciocínio de modelos de linguagem (LM), a maioria dos métodos tende à explotação e, cada vez mais, encontra platôs de desempenho. Neste trabalho, revisitamos a entropia — um sinal de exploração no RL — e examinamos sua relação com o raciocínio exploratório em LMs. Por meio de análises empíricas, descobrimos fortes correlações positivas entre regiões de alta entropia e três tipos de ações de raciocínio exploratório: (1) tokens pivôs que determinam ou conectam etapas lógicas, (2) ações reflexivas, como autoverificação e correção, e (3) comportamentos raros pouco explorados pelos LMs base. Motivados por isso, introduzimos uma modificação mínima ao RL padrão com apenas uma linha de código: aumentamos a função de vantagem com um termo baseado em entropia. Diferentemente dos métodos tradicionais de máxima entropia, que incentivam a exploração promovendo incerteza, incentivamos a exploração promovendo cadeias de raciocínio mais longas e profundas. Notavelmente, nosso método alcança ganhos significativos na métrica Pass@K — um estimador de limite superior das capacidades de raciocínio de LMs — mesmo quando avaliado com valores extremamente grandes de K, expandindo os limites do raciocínio de LMs.
English
Balancing exploration and exploitation is a central goal in reinforcement
learning (RL). Despite recent advances in enhancing language model (LM)
reasoning, most methods lean toward exploitation, and increasingly encounter
performance plateaus. In this work, we revisit entropy -- a signal of
exploration in RL -- and examine its relationship to exploratory reasoning in
LMs. Through empirical analysis, we uncover strong positive correlations
between high-entropy regions and three types of exploratory reasoning actions:
(1) pivotal tokens that determine or connect logical steps, (2) reflective
actions such as self-verification and correction, and (3) rare behaviors
under-explored by the base LMs. Motivated by this, we introduce a minimal
modification to standard RL with only one line of code: augmenting the
advantage function with an entropy-based term. Unlike traditional
maximum-entropy methods which encourage exploration by promoting uncertainty,
we encourage exploration by promoting longer and deeper reasoning chains.
Notably, our method achieves significant gains on the Pass@K metric -- an
upper-bound estimator of LM reasoning capabilities -- even when evaluated with
extremely large K values, pushing the boundaries of LM reasoning.