ChatPaper.aiChatPaper

STAPO: Estabilización del Aprendizaje por Refuerzo para LLMs mediante la Supresión de Tokens Espurios Raros

STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

February 17, 2026
Autores: Shiqi Liu, Zeyu He, Guojian Zhan, Letian Tao, Zhilong Zheng, Jiang Wu, Yinuo Wang, Yang Guan, Kehua Sheng, Bo Zhang, Keqiang Li, Jingliang Duan, Shengbo Eben Li
cs.AI

Resumen

El Aprendizaje por Refuerzo (RL) ha mejorado significativamente el razonamiento de los modelos de lenguaje grandes, pero los métodos existentes de ajuste fino mediante RL dependen en gran medida de técnicas heurísticas, como la regularización de entropía y la reponderación, para mantener la estabilidad. En la práctica, a menudo experimentan un colapso del rendimiento en etapas tardías, lo que conduce a una calidad de razonamiento degradada y a un entrenamiento inestable. Derivamos que la magnitud de los gradientes de política por token en RL está negativamente correlacionada con la probabilidad del token y la entropía local de la política. Basándonos en este resultado, demostramos que la inestabilidad del entrenamiento está impulsada por una pequeña fracción de tokens, aproximadamente el 0,01%, que denominamos *tokens espurios*. Cuando estos tokens aparecen en respuestas correctas, contribuyen poco al resultado del razonamiento pero heredan la recompensa completa a nivel de secuencia, lo que lleva a actualizaciones de gradiente anormalmente amplificadas. Motivados por esta observación, proponemos la Optimización de Políticas con Conciencia de Tokens Espurios (STAPO) para el refinamiento de modelos a gran escala, que enmascara selectivamente dichas actualizaciones y renormaliza la pérdida sobre los tokens válidos. En seis benchmarks de razonamiento matemático utilizando los modelos base Qwen 1.7B, 8B y 14B, STAPO demuestra consistentemente una estabilidad de entropía superior y logra una mejora promedio en el rendimiento del 7,13% sobre GRPO, 20-Entropy y JustRL.
English
Reinforcement Learning (RL) has significantly improved large language model reasoning, but existing RL fine-tuning methods rely heavily on heuristic techniques such as entropy regularization and reweighting to maintain stability. In practice, they often experience late-stage performance collapse, leading to degraded reasoning quality and unstable training. We derive that the magnitude of token-wise policy gradients in RL is negatively correlated with token probability and local policy entropy. Building on this result, we prove that training instability is driven by a tiny fraction of tokens, approximately 0.01\%, which we term spurious tokens. When such tokens appear in correct responses, they contribute little to the reasoning outcome but inherit the full sequence-level reward, leading to abnormally amplified gradient updates. Motivated by this observation, we propose Spurious-Token-Aware Policy Optimization (STAPO) for large-scale model refining, which selectively masks such updates and renormalizes the loss over valid tokens. Across six mathematical reasoning benchmarks using Qwen 1.7B, 8B, and 14B base models, STAPO consistently demonstrates superior entropy stability and achieves an average performance improvement of 7.13\% over GRPO, 20-Entropy and JustRL.
PDF31February 19, 2026