STAPO: Stabilisatie van Reinforcement Learning voor LLM's door het Onderdrukken van Zeldzame Valse Tokens

Samenvatting

Versterkend leren (RL) heeft de redeneercapaciteit van grote taalmodellen aanzienlijk verbeterd, maar bestaande RL-fijnafstemmingsmethoden zijn sterk afhankelijk van heuristische technieken zoals entropieregularisatie en herweging om stabiliteit te waarborgen. In de praktijk ondervinden deze methoden vaak prestatieverlies in latere trainingsfasen, wat leidt tot verminderde redeneerkwaliteit en instabiele training. Wij leiden af dat de grootte van tokengewijze beleidsgradiënten in RL negatief gecorreleerd is met de tokenwaarschijnlijkheid en de lokale beleidsentropie. Op basis van dit resultaat bewijzen wij dat trainingsinstabiliteit wordt veroorzaakt door een minuscuul deel van de tokens (ongeveer 0,01%), die wij spurious tokens noemen. Wanneer dergelijke tokens voorkomen in correcte antwoorden, dragen zij weinig bij aan het redeneerresultaat maar erven de volledige reeksniveau-beloning, wat leidt tot abnormaal versterkte gradiëntupdates. Gemotiveerd door deze observatie stellen wij Spurious-Token-Aware Policy Optimization (STAPO) voor voor grootschalige modelverfijning, waarbij dergelijke updates selectief worden gemaskeerd en het verlies over geldige tokens wordt genormaliseerd. Over zes wiskundige redeneerbenchmarks met Qwen 1.7B-, 8B- en 14B-basismodellen toont STAPO consistent superieure entropiestabiliteit en behaalt het een gemiddelde prestatieverbetering van 7,13% ten opzichte van GRPO, 20-Entropy en JustRL.

English

Reinforcement Learning (RL) has significantly improved large language model reasoning, but existing RL fine-tuning methods rely heavily on heuristic techniques such as entropy regularization and reweighting to maintain stability. In practice, they often experience late-stage performance collapse, leading to degraded reasoning quality and unstable training. We derive that the magnitude of token-wise policy gradients in RL is negatively correlated with token probability and local policy entropy. Building on this result, we prove that training instability is driven by a tiny fraction of tokens, approximately 0.01\%, which we term spurious tokens. When such tokens appear in correct responses, they contribute little to the reasoning outcome but inherit the full sequence-level reward, leading to abnormally amplified gradient updates. Motivated by this observation, we propose Spurious-Token-Aware Policy Optimization (STAPO) for large-scale model refining, which selectively masks such updates and renormalizes the loss over valid tokens. Across six mathematical reasoning benchmarks using Qwen 1.7B, 8B, and 14B base models, STAPO consistently demonstrates superior entropy stability and achieves an average performance improvement of 7.13\% over GRPO, 20-Entropy and JustRL.

STAPO: Stabilisatie van Reinforcement Learning voor LLM's door het Onderdrukken van Zeldzame Valse Tokens

STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

Samenvatting

Support