ChatPaper.aiChatPaper

Laat het Kalmeren: Exploratief Geannealeerd Decoderen voor Verifieerbare Reinforcement Learning

Let it Calm: Exploratory Annealed Decoding for Verifiable Reinforcement Learning

October 6, 2025
Auteurs: Chenghao Yang, Lin Gui, Chenxiao Yang, Victor Veitch, Lizhu Zhang, Zhuokai Zhao
cs.AI

Samenvatting

Reinforcement learning met verifieerbare beloningen (RLVR) is een krachtig paradigma voor het verbeteren van de redeneervaardigheden van grote taalmodellen (LLM's), maar het succes ervan hangt af van effectieve exploratie. Een ideale exploratiestrategie moet twee fundamentele uitdagingen navigeren: het moet de kwaliteit van de samples behouden en tegelijkertijd de stabiliteit van de training waarborgen. Hoewel standaard fixed-temperature sampling eenvoudig is, worstelt het met het balanceren van deze concurrerende eisen, aangezien hoge temperaturen de samplekwaliteit aantasten en lage temperaturen de ontdekking beperken. In dit werk stellen we een eenvoudigere en effectievere strategie voor, Exploratory Annealed Decoding (EAD), gebaseerd op het inzicht dat exploratie het meest impactvol is op de vroege tokens die de semantische richting van een sequentie bepalen. EAD implementeert een intuïtieve **explore-at-the-beginning, exploit-at-the-end** strategie door de samplingtemperatuur tijdens de generatie geleidelijk van hoog naar laag te verlagen. Dit dynamische schema stimuleert betekenisvolle, hoogwaardige diversiteit aan het begin, en verlaagt vervolgens geleidelijk de temperatuur om de samplekwaliteit te behouden en de samplingdistributie dicht bij het doelbeleid te houden, wat essentieel is voor een stabiele training. We tonen aan dat EAD een lichtgewicht, plug-and-play methode is die de sample-efficiëntie aanzienlijk verbetert en consistent beter presteert dan fixed-temperature sampling bij verschillende RLVR-algoritmen en modelgroottes. Ons werk suggereert dat het afstemmen van exploratie op de natuurlijke dynamiek van sequentiële generatie een robuuste weg biedt om de redeneervaardigheden van LLM's te verbeteren.
English
Reinforcement learning with verifiable rewards (RLVR) is a powerful paradigm for enhancing the reasoning capabilities of large language models (LLMs), yet its success hinges on effective exploration. An ideal exploration strategy must navigate two fundamental challenges: it must preserve sample quality while also ensuring training stability. While standard fixed-temperature sampling is simple, it struggles to balance these competing demands, as high temperatures degrade sample quality and low temperatures limit discovery. In this work, we propose a simpler and more effective strategy, Exploratory Annealed Decoding (EAD), grounded in the insight that exploration is most impactful on early tokens which define a sequence's semantic direction. EAD implements an intuitive **explore-at-the-beginning, exploit-at-the-end** strategy by annealing the sampling temperature from high to low during generation. This dynamic schedule encourages meaningful, high-level diversity at the start, then gradually lowers the temperature to preserve sample quality and keep the sampling distribution close to the target policy, which is essential for stable training. We demonstrate that EAD is a lightweight, plug-and-play method that significantly improves sample efficiency, consistently outperforming fixed-temperature sampling across various RLVR algorithms and model sizes. Our work suggests that aligning exploration with the natural dynamics of sequential generation offers a robust path to improving LLM reasoning.
PDF73October 8, 2025