ChatPaper.aiChatPaper

Laissez-le se calmer : Décodage recuit exploratoire pour l'apprentissage par renforcement vérifiable

Let it Calm: Exploratory Annealed Decoding for Verifiable Reinforcement Learning

October 6, 2025
papers.authors: Chenghao Yang, Lin Gui, Chenxiao Yang, Victor Veitch, Lizhu Zhang, Zhuokai Zhao
cs.AI

papers.abstract

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est un paradigme puissant pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, son succès dépend d'une exploration efficace. Une stratégie d'exploration idéale doit relever deux défis fondamentaux : elle doit préserver la qualité des échantillons tout en assurant la stabilité de l'entraînement. Bien que l'échantillonnage à température fixe soit simple, il peine à équilibrer ces exigences concurrentes, car des températures élevées dégradent la qualité des échantillons et des températures basses limitent la découverte. Dans ce travail, nous proposons une stratégie plus simple et plus efficace, le **Décodage Recuit Exploratoire (EAD)**, fondée sur l'idée que l'exploration est plus impactante sur les premiers jetons, qui définissent la direction sémantique d'une séquence. L'EAD met en œuvre une stratégie intuitive d'**exploration au début, exploitation à la fin** en faisant varier la température d'échantillonnage de haut en bas pendant la génération. Ce programme dynamique encourage une diversité significative et de haut niveau au départ, puis réduit progressivement la température pour préserver la qualité des échantillons et maintenir la distribution d'échantillonnage proche de la politique cible, ce qui est essentiel pour un entraînement stable. Nous démontrons que l'EAD est une méthode légère et prête à l'emploi qui améliore significativement l'efficacité des échantillons, surpassant systématiquement l'échantillonnage à température fixe sur divers algorithmes RLVR et tailles de modèles. Notre travail suggère qu'aligner l'exploration sur la dynamique naturelle de la génération séquentielle offre une voie robuste pour améliorer le raisonnement des LLM.
English
Reinforcement learning with verifiable rewards (RLVR) is a powerful paradigm for enhancing the reasoning capabilities of large language models (LLMs), yet its success hinges on effective exploration. An ideal exploration strategy must navigate two fundamental challenges: it must preserve sample quality while also ensuring training stability. While standard fixed-temperature sampling is simple, it struggles to balance these competing demands, as high temperatures degrade sample quality and low temperatures limit discovery. In this work, we propose a simpler and more effective strategy, Exploratory Annealed Decoding (EAD), grounded in the insight that exploration is most impactful on early tokens which define a sequence's semantic direction. EAD implements an intuitive **explore-at-the-beginning, exploit-at-the-end** strategy by annealing the sampling temperature from high to low during generation. This dynamic schedule encourages meaningful, high-level diversity at the start, then gradually lowers the temperature to preserve sample quality and keep the sampling distribution close to the target policy, which is essential for stable training. We demonstrate that EAD is a lightweight, plug-and-play method that significantly improves sample efficiency, consistently outperforming fixed-temperature sampling across various RLVR algorithms and model sizes. Our work suggests that aligning exploration with the natural dynamics of sequential generation offers a robust path to improving LLM reasoning.
PDF73October 8, 2025