ChatPaper.aiChatPaper

Redeneren met exploratie: een entropieperspectief

Reasoning with Exploration: An Entropy Perspective

June 17, 2025
Auteurs: Daixuan Cheng, Shaohan Huang, Xuekai Zhu, Bo Dai, Wayne Xin Zhao, Zhenliang Zhang, Furu Wei
cs.AI

Samenvatting

Het balanceren van exploratie en exploitatie is een centraal doel in reinforcement learning (RL). Ondanks recente vooruitgang in het verbeteren van de redeneervaardigheden van taalmodellen (LMs), neigen de meeste methoden naar exploitatie en stuiten ze steeds vaker op prestatieplateaus. In dit werk herzien we entropie – een signaal van exploratie in RL – en onderzoeken we de relatie ervan met exploratief redeneren in LMs. Door empirische analyse ontdekken we sterke positieve correlaties tussen regio's met hoge entropie en drie soorten exploratieve redeneeracties: (1) cruciale tokens die logische stappen bepalen of verbinden, (2) reflectieve acties zoals zelfverificatie en correctie, en (3) zeldzaam gedrag dat onderbelicht blijft door de basis-LMs. Geïnspireerd door deze bevindingen introduceren we een minimale aanpassing aan standaard RL met slechts één regel code: het verrijken van de voordelenfunctie met een entropie-gebaseerde term. In tegenstelling tot traditionele maximum-entropiemethoden die exploratie aanmoedigen door onzekerheid te bevorderen, stimuleren wij exploratie door langere en diepere redeneerketens te bevorderen. Opmerkelijk is dat onze methode aanzienlijke verbeteringen behaalt op de Pass@K-metric – een bovengrens-schatting van de redeneervaardigheden van LMs – zelfs wanneer geëvalueerd met extreem grote K-waarden, waardoor de grenzen van LM-redenering worden verlegd.
English
Balancing exploration and exploitation is a central goal in reinforcement learning (RL). Despite recent advances in enhancing language model (LM) reasoning, most methods lean toward exploitation, and increasingly encounter performance plateaus. In this work, we revisit entropy -- a signal of exploration in RL -- and examine its relationship to exploratory reasoning in LMs. Through empirical analysis, we uncover strong positive correlations between high-entropy regions and three types of exploratory reasoning actions: (1) pivotal tokens that determine or connect logical steps, (2) reflective actions such as self-verification and correction, and (3) rare behaviors under-explored by the base LMs. Motivated by this, we introduce a minimal modification to standard RL with only one line of code: augmenting the advantage function with an entropy-based term. Unlike traditional maximum-entropy methods which encourage exploration by promoting uncertainty, we encourage exploration by promoting longer and deeper reasoning chains. Notably, our method achieves significant gains on the Pass@K metric -- an upper-bound estimator of LM reasoning capabilities -- even when evaluated with extremely large K values, pushing the boundaries of LM reasoning.
PDF274June 18, 2025