STAPO: Stabilizzazione dell'Apprendimento per Rinforzo per LLM Tramite l'Abbattimento dei Token Spuri Rari

Abstract

L'apprendimento per rinforzo (RL) ha migliorato significativamente il ragionamento dei grandi modelli linguistici, ma i metodi di fine-tuning RL esistenti si basano pesantemente su tecniche euristiche come la regolarizzazione dell'entropia e il ripesaggio per mantenere la stabilità. In pratica, essi sperimentano spesso un collasso delle prestazioni nelle fasi finali, portando a un deterioramento della qualità del ragionamento e a un addestramento instabile. Deriviamo che l'ampiezza dei gradienti della politica per token in RL è negativamente correlata con la probabilità del token e con l'entropia locale della politica. Basandoci su questo risultato, dimostriamo che l'instabilità dell'addestramento è guidata da una piccolissima frazione di token, circa lo 0,01%, che definiamo token spurii. Quando tali token compaiono in risposte corrette, contribuiscono poco all'esito del ragionamento ma ereditano la ricompensa a livello di sequenza completa, portando ad aggiornamenti del gradiente anormalmente amplificati. Motivati da questa osservazione, proponiamo l'ottimizzazione della politica consapevole dei token spurii (STAPO) per l'affinamento di modelli su larga scala, che maschera selettivamente tali aggiornamenti e rinormalizza la perdita sui token validi. In sei benchmark di ragionamento matematico che utilizzano i modelli base Qwen 1.7B, 8B e 14B, STAPO dimostra costantemente una superiorità nella stabilità dell'entropia e raggiunge un miglioramento prestazionale medio del 7,13% rispetto a GRPO, 20-Entropy e JustRL.

English

Reinforcement Learning (RL) has significantly improved large language model reasoning, but existing RL fine-tuning methods rely heavily on heuristic techniques such as entropy regularization and reweighting to maintain stability. In practice, they often experience late-stage performance collapse, leading to degraded reasoning quality and unstable training. We derive that the magnitude of token-wise policy gradients in RL is negatively correlated with token probability and local policy entropy. Building on this result, we prove that training instability is driven by a tiny fraction of tokens, approximately 0.01\%, which we term spurious tokens. When such tokens appear in correct responses, they contribute little to the reasoning outcome but inherit the full sequence-level reward, leading to abnormally amplified gradient updates. Motivated by this observation, we propose Spurious-Token-Aware Policy Optimization (STAPO) for large-scale model refining, which selectively masks such updates and renormalizes the loss over valid tokens. Across six mathematical reasoning benchmarks using Qwen 1.7B, 8B, and 14B base models, STAPO consistently demonstrates superior entropy stability and achieves an average performance improvement of 7.13\% over GRPO, 20-Entropy and JustRL.

STAPO: Stabilizzazione dell'Apprendimento per Rinforzo per LLM Tramite l'Abbattimento dei Token Spuri Rari

STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

Abstract

Support