ChatPaper.aiChatPaper

Segment Policy Optimalisatie: Effectieve Toewijzing van Segmentniveau Credits in Reinforcement Learning voor Grote Taalmodellen

Segment Policy Optimization: Effective Segment-Level Credit Assignment in RL for Large Language Models

May 29, 2025
Auteurs: Yiran Guo, Lijie Xu, Jie Liu, Dan Ye, Shuang Qiu
cs.AI

Samenvatting

Het effectief verbeteren van de redeneervaardigheden van grote taalmodellen met behulp van reinforcement learning (RL) blijft een cruciale uitdaging. Bestaande benaderingen hanteren voornamelijk twee contrasterende granulariteiten voor voordeelschatting: Token-level methoden (bijv. PPO) streven naar fijnmazige voordeelsignalen, maar kampen met onnauwkeurige schattingen door moeilijkheden bij het trainen van een nauwkeurig criticusmodel. Aan het andere uiterste vertrouwen traject-level methoden (bijv. GRPO) uitsluitend op een grofmazig voordeelsignaal van de uiteindelijke beloning, wat leidt tot onnauwkeurige toewijzing van verdienste. Om deze beperkingen aan te pakken, stellen we Segment Policy Optimization (SPO) voor, een nieuw RL-framework dat gebruikmaakt van segment-level voordeelschatting op een tussenliggende granulariteit, waardoor een betere balans wordt bereikt door nauwkeurigere toewijzing van verdienste dan traject-level methoden en minder schattingspunten vereist dan token-level methoden, wat nauwkeurige voordeelschatting mogelijk maakt op basis van Monte Carlo (MC) zonder een criticusmodel. SPO omvat drie componenten met nieuwe strategieën: (1) flexibele segmentpartitie; (2) nauwkeurige segmentvoordeelschatting; en (3) beleidsoptimalisatie met behulp van segmentvoordelen, inclusief een nieuwe waarschijnlijkheidsmaskerstrategie. We concretiseren SPO verder voor twee specifieke scenario's: (1) SPO-chain voor korte chain-of-thought (CoT), met nieuwe partitie op basis van snijpunten en voordeelschatting op basis van ketens, wat 6-12 procentpunt verbeteringen in nauwkeurigheid oplevert ten opzichte van PPO en GRPO op GSM8K. (2) SPO-tree voor lange CoT, met nieuwe voordeelschatting op basis van bomen, wat de kosten van MC-schatting aanzienlijk verlaagt, wat 7-11 procentpunt verbeteringen oplevert ten opzichte van GRPO op MATH500 onder 2K en 4K contextevaluatie. We maken onze code openbaar beschikbaar op https://github.com/AIFrameResearch/SPO.
English
Enhancing the reasoning capabilities of large language models effectively using reinforcement learning (RL) remains a crucial challenge. Existing approaches primarily adopt two contrasting advantage estimation granularities: Token-level methods (e.g., PPO) aim to provide the fine-grained advantage signals but suffer from inaccurate estimation due to difficulties in training an accurate critic model. On the other extreme, trajectory-level methods (e.g., GRPO) solely rely on a coarse-grained advantage signal from the final reward, leading to imprecise credit assignment. To address these limitations, we propose Segment Policy Optimization (SPO), a novel RL framework that leverages segment-level advantage estimation at an intermediate granularity, achieving a better balance by offering more precise credit assignment than trajectory-level methods and requiring fewer estimation points than token-level methods, enabling accurate advantage estimation based on Monte Carlo (MC) without a critic model. SPO features three components with novel strategies: (1) flexible segment partition; (2) accurate segment advantage estimation; and (3) policy optimization using segment advantages, including a novel probability-mask strategy. We further instantiate SPO for two specific scenarios: (1) SPO-chain for short chain-of-thought (CoT), featuring novel cutpoint-based partition and chain-based advantage estimation, achieving 6-12 percentage point improvements in accuracy over PPO and GRPO on GSM8K. (2) SPO-tree for long CoT, featuring novel tree-based advantage estimation, which significantly reduces the cost of MC estimation, achieving 7-11 percentage point improvements over GRPO on MATH500 under 2K and 4K context evaluation. We make our code publicly available at https://github.com/AIFrameResearch/SPO.
PDF32June 5, 2025