Raisonnement avec Exploration : Une Perspective Entropique
Reasoning with Exploration: An Entropy Perspective
June 17, 2025
Auteurs: Daixuan Cheng, Shaohan Huang, Xuekai Zhu, Bo Dai, Wayne Xin Zhao, Zhenliang Zhang, Furu Wei
cs.AI
Résumé
L'équilibre entre exploration et exploitation constitue un objectif central en apprentissage par renforcement (RL). Malgré les avancées récentes visant à améliorer le raisonnement des modèles de langage (LM), la plupart des méthodes privilégient l'exploitation et se heurtent de plus en plus à des plateaux de performance. Dans ce travail, nous revisitons l'entropie — un signal d'exploration en RL — et examinons sa relation avec le raisonnement exploratoire dans les LM. À travers une analyse empirique, nous mettons en évidence de fortes corrélations positives entre les régions à haute entropie et trois types d'actions de raisonnement exploratoire : (1) les tokens pivots qui déterminent ou relient les étapes logiques, (2) les actions réflexives telles que l'auto-vérification et la correction, et (3) les comportements rares sous-explorés par les LM de base. Motivés par ces observations, nous introduisons une modification minimale au RL standard avec une seule ligne de code : l'augmentation de la fonction d'avantage par un terme basé sur l'entropie. Contrairement aux méthodes traditionnelles d'entropie maximale qui encouragent l'exploration en promouvant l'incertitude, nous encourageons l'exploration en favorisant des chaînes de raisonnement plus longues et plus profondes. Notamment, notre méthode obtient des gains significatifs sur la métrique Pass@K — un estimateur de la borne supérieure des capacités de raisonnement des LM — même lorsqu'elle est évaluée avec des valeurs de K extrêmement grandes, repoussant ainsi les limites du raisonnement des LM.
English
Balancing exploration and exploitation is a central goal in reinforcement
learning (RL). Despite recent advances in enhancing language model (LM)
reasoning, most methods lean toward exploitation, and increasingly encounter
performance plateaus. In this work, we revisit entropy -- a signal of
exploration in RL -- and examine its relationship to exploratory reasoning in
LMs. Through empirical analysis, we uncover strong positive correlations
between high-entropy regions and three types of exploratory reasoning actions:
(1) pivotal tokens that determine or connect logical steps, (2) reflective
actions such as self-verification and correction, and (3) rare behaviors
under-explored by the base LMs. Motivated by this, we introduce a minimal
modification to standard RL with only one line of code: augmenting the
advantage function with an entropy-based term. Unlike traditional
maximum-entropy methods which encourage exploration by promoting uncertainty,
we encourage exploration by promoting longer and deeper reasoning chains.
Notably, our method achieves significant gains on the Pass@K metric -- an
upper-bound estimator of LM reasoning capabilities -- even when evaluated with
extremely large K values, pushing the boundaries of LM reasoning.