ChatPaper.aiChatPaper

Пусть успокоится: исследовательское отжигающее декодирование для проверяемого обучения с подкреплением

Let it Calm: Exploratory Annealed Decoding for Verifiable Reinforcement Learning

October 6, 2025
Авторы: Chenghao Yang, Lin Gui, Chenxiao Yang, Victor Veitch, Lizhu Zhang, Zhuokai Zhao
cs.AI

Аннотация

Обучение с подкреплением с верифицируемыми наградами (RLVR) представляет собой мощный подход для улучшения способностей крупных языковых моделей (LLM) к рассуждению, однако его успех зависит от эффективного исследования. Идеальная стратегия исследования должна решать две фундаментальные задачи: сохранять качество образцов и обеспечивать стабильность обучения. Хотя стандартная выборка с фиксированной температурой проста в реализации, она не справляется с балансировкой этих противоречивых требований, так как высокая температура ухудшает качество образцов, а низкая ограничивает возможности открытия. В данной работе мы предлагаем более простую и эффективную стратегию — Исследовательское Анеллированное Декодирование (EAD), основанную на идее, что исследование наиболее важно для начальных токенов, которые определяют семантическое направление последовательности. EAD реализует интуитивную стратегию **исследовать в начале, использовать в конце**, постепенно снижая температуру выборки от высокой к низкой в процессе генерации. Этот динамический график стимулирует значимое разнообразие на высоком уровне в начале, а затем постепенно снижает температуру для сохранения качества образцов и удержания распределения выборки близко к целевой политике, что важно для стабильного обучения. Мы демонстрируем, что EAD является легковесным, подключаемым методом, который значительно повышает эффективность выборки, стабильно превосходя выборку с фиксированной температурой в различных алгоритмах RLVR и размерах моделей. Наша работа показывает, что согласование исследования с естественной динамикой последовательной генерации предлагает надежный путь к улучшению способностей LLM к рассуждению.
English
Reinforcement learning with verifiable rewards (RLVR) is a powerful paradigm for enhancing the reasoning capabilities of large language models (LLMs), yet its success hinges on effective exploration. An ideal exploration strategy must navigate two fundamental challenges: it must preserve sample quality while also ensuring training stability. While standard fixed-temperature sampling is simple, it struggles to balance these competing demands, as high temperatures degrade sample quality and low temperatures limit discovery. In this work, we propose a simpler and more effective strategy, Exploratory Annealed Decoding (EAD), grounded in the insight that exploration is most impactful on early tokens which define a sequence's semantic direction. EAD implements an intuitive **explore-at-the-beginning, exploit-at-the-end** strategy by annealing the sampling temperature from high to low during generation. This dynamic schedule encourages meaningful, high-level diversity at the start, then gradually lowers the temperature to preserve sample quality and keep the sampling distribution close to the target policy, which is essential for stable training. We demonstrate that EAD is a lightweight, plug-and-play method that significantly improves sample efficiency, consistently outperforming fixed-temperature sampling across various RLVR algorithms and model sizes. Our work suggests that aligning exploration with the natural dynamics of sequential generation offers a robust path to improving LLM reasoning.
PDF73October 8, 2025