ChatPaper.aiChatPaper

Schlussfolgern mit Exploration: Eine Entropie-Perspektive

Reasoning with Exploration: An Entropy Perspective

June 17, 2025
Autoren: Daixuan Cheng, Shaohan Huang, Xuekai Zhu, Bo Dai, Wayne Xin Zhao, Zhenliang Zhang, Furu Wei
cs.AI

Zusammenfassung

Das Ausbalancieren von Exploration und Exploitation ist ein zentrales Ziel im Reinforcement Learning (RL). Trotz jüngster Fortschritte bei der Verbesserung des Denkens von Sprachmodellen (LMs) neigen die meisten Methoden zur Exploitation und stoßen zunehmend auf Leistungsplateaus. In dieser Arbeit untersuchen wir die Entropie – ein Signal für Exploration im RL – und deren Beziehung zum explorativen Denken in LMs. Durch empirische Analysen decken wir starke positive Korrelationen zwischen hoch-entropischen Regionen und drei Arten von explorativen Denkhandlungen auf: (1) entscheidende Tokens, die logische Schritte bestimmen oder verbinden, (2) reflektierende Handlungen wie Selbstüberprüfung und Korrektur, und (3) seltene Verhaltensweisen, die von den Basis-LMs untererforscht sind. Motiviert durch diese Erkenntnisse führen wir eine minimale Modifikation des Standard-RL mit nur einer Codezeile ein: die Erweiterung der Advantage-Funktion um einen entropiebasierten Term. Im Gegensatz zu traditionellen Maximum-Entropie-Methoden, die Exploration durch die Förderung von Unsicherheit anregen, fördern wir Exploration durch die Förderung längerer und tieferer Denkketten. Bemerkenswerterweise erzielt unsere Methode signifikante Verbesserungen beim Pass@K-Metrik – einem oberen Schätzer der Denkfähigkeiten von LMs – selbst bei der Bewertung mit extrem großen K-Werten, wodurch die Grenzen des LM-Denkens erweitert werden.
English
Balancing exploration and exploitation is a central goal in reinforcement learning (RL). Despite recent advances in enhancing language model (LM) reasoning, most methods lean toward exploitation, and increasingly encounter performance plateaus. In this work, we revisit entropy -- a signal of exploration in RL -- and examine its relationship to exploratory reasoning in LMs. Through empirical analysis, we uncover strong positive correlations between high-entropy regions and three types of exploratory reasoning actions: (1) pivotal tokens that determine or connect logical steps, (2) reflective actions such as self-verification and correction, and (3) rare behaviors under-explored by the base LMs. Motivated by this, we introduce a minimal modification to standard RL with only one line of code: augmenting the advantage function with an entropy-based term. Unlike traditional maximum-entropy methods which encourage exploration by promoting uncertainty, we encourage exploration by promoting longer and deeper reasoning chains. Notably, our method achieves significant gains on the Pass@K metric -- an upper-bound estimator of LM reasoning capabilities -- even when evaluated with extremely large K values, pushing the boundaries of LM reasoning.
PDF194June 18, 2025