차분하게 하라: 검증 가능한 강화 학습을 위한 탐색적 어닐링 디코딩
Let it Calm: Exploratory Annealed Decoding for Verifiable Reinforcement Learning
October 6, 2025
저자: Chenghao Yang, Lin Gui, Chenxiao Yang, Victor Veitch, Lizhu Zhang, Zhuokai Zhao
cs.AI
초록
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 강력한 패러다임이지만, 그 성공은 효과적인 탐색 전략에 달려 있습니다. 이상적인 탐색 전략은 두 가지 근본적인 과제를 극복해야 합니다: 샘플 품질을 유지하면서도 훈련 안정성을 보장해야 합니다. 표준 고정 온도 샘플링은 간단하지만, 높은 온도는 샘플 품질을 저하시키고 낮은 온도는 발견 가능성을 제한하기 때문에 이러한 상충되는 요구 사항을 균형 있게 조절하기 어렵습니다. 본 연구에서는 탐색이 시퀀스의 의미적 방향을 정의하는 초기 토큰에 가장 큰 영향을 미친다는 통찰에 기반하여, 더 간단하고 효과적인 전략인 탐색적 어닐링 디코딩(EAD)을 제안합니다. EAD는 생성 과정에서 샘플링 온도를 높은 값에서 낮은 값으로 점진적으로 조정함으로써 **초기에는 탐색, 후기에는 활용**이라는 직관적인 전략을 구현합니다. 이 동적 스케줄링은 초기에는 의미 있는 고수준의 다양성을 장려하고, 이후에는 샘플 품질을 유지하고 샘플링 분포를 목표 정책에 가깝게 유지하기 위해 온도를 점차 낮춥니다. 이는 안정적인 훈련에 필수적입니다. 우리는 EAD가 경량화된 플러그 앤 플레이 방식으로, 다양한 RLVR 알고리즘과 모델 크기에서 고정 온도 샘플링을 일관되게 능가하며 샘플 효율성을 크게 개선함을 입증합니다. 본 연구는 순차적 생성의 자연스러운 역학과 탐색을 조율하는 것이 LLM의 추론 능력을 향상시키는 견고한 방법임을 시사합니다.
English
Reinforcement learning with verifiable rewards (RLVR) is a powerful paradigm
for enhancing the reasoning capabilities of large language models (LLMs), yet
its success hinges on effective exploration. An ideal exploration strategy must
navigate two fundamental challenges: it must preserve sample quality while also
ensuring training stability. While standard fixed-temperature sampling is
simple, it struggles to balance these competing demands, as high temperatures
degrade sample quality and low temperatures limit discovery. In this work, we
propose a simpler and more effective strategy, Exploratory Annealed Decoding
(EAD), grounded in the insight that exploration is most impactful on early
tokens which define a sequence's semantic direction. EAD implements an
intuitive **explore-at-the-beginning, exploit-at-the-end** strategy by
annealing the sampling temperature from high to low during generation. This
dynamic schedule encourages meaningful, high-level diversity at the start, then
gradually lowers the temperature to preserve sample quality and keep the
sampling distribution close to the target policy, which is essential for stable
training. We demonstrate that EAD is a lightweight, plug-and-play method that
significantly improves sample efficiency, consistently outperforming
fixed-temperature sampling across various RLVR algorithms and model sizes. Our
work suggests that aligning exploration with the natural dynamics of sequential
generation offers a robust path to improving LLM reasoning.