탐색을 통한 추론: 엔트로피 관점에서
Reasoning with Exploration: An Entropy Perspective
June 17, 2025
저자: Daixuan Cheng, Shaohan Huang, Xuekai Zhu, Bo Dai, Wayne Xin Zhao, Zhenliang Zhang, Furu Wei
cs.AI
초록
탐색(exploration)과 활용(exploitation)의 균형은 강화 학습(reinforcement learning, RL)의 핵심 목표 중 하나이다. 최근 언어 모델(language model, LM)의 추론 능력을 향상시키는 데 있어 많은 진전이 있었음에도 불구하고, 대부분의 방법은 활용에 치우쳐 있으며 점점 더 성능 정체에 직면하고 있다. 본 연구에서는 RL에서 탐색의 신호로 사용되는 엔트로피(entropy)를 재조명하고, 이를 LM의 탐색적 추론과의 관계를 통해 분석한다. 실증적 분석을 통해, 우리는 높은 엔트로피 영역과 세 가지 유형의 탐색적 추론 행동 간에 강한 양의 상관관계가 있음을 발견하였다: (1) 논리적 단계를 결정하거나 연결하는 핵심 토큰(pivotal tokens), (2) 자기 검증 및 수정과 같은 반영적 행동(reflective actions), (3) 기본 LM에 의해 충분히 탐색되지 않은 희소한 행동(rare behaviors). 이를 바탕으로, 우리는 표준 RL에 단 한 줄의 코드만 추가하는 최소한의 수정을 제안한다: 이점 함수(advantage function)에 엔트로피 기반 항목을 추가하는 것이다. 기존의 최대 엔트로피 방법이 불확실성을 촉진함으로써 탐색을 장려하는 것과 달리, 우리는 더 길고 깊은 추론 사슬을 촉진함으로써 탐색을 장려한다. 특히, 우리의 방법은 LM의 추론 능력을 상한 추정하는 Pass@K 지표에서 상당한 성능 향상을 달성하며, 매우 큰 K 값에서도 평가될 때 LM 추론의 한계를 넓히는 결과를 보여준다.
English
Balancing exploration and exploitation is a central goal in reinforcement
learning (RL). Despite recent advances in enhancing language model (LM)
reasoning, most methods lean toward exploitation, and increasingly encounter
performance plateaus. In this work, we revisit entropy -- a signal of
exploration in RL -- and examine its relationship to exploratory reasoning in
LMs. Through empirical analysis, we uncover strong positive correlations
between high-entropy regions and three types of exploratory reasoning actions:
(1) pivotal tokens that determine or connect logical steps, (2) reflective
actions such as self-verification and correction, and (3) rare behaviors
under-explored by the base LMs. Motivated by this, we introduce a minimal
modification to standard RL with only one line of code: augmenting the
advantage function with an entropy-based term. Unlike traditional
maximum-entropy methods which encourage exploration by promoting uncertainty,
we encourage exploration by promoting longer and deeper reasoning chains.
Notably, our method achieves significant gains on the Pass@K metric -- an
upper-bound estimator of LM reasoning capabilities -- even when evaluated with
extremely large K values, pushing the boundaries of LM reasoning.