STAPO: Стабилизация обучения с подкреплением для больших языковых моделей путем подавления редких ложных токенов
STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens
February 17, 2026
Авторы: Shiqi Liu, Zeyu He, Guojian Zhan, Letian Tao, Zhilong Zheng, Jiang Wu, Yinuo Wang, Yang Guan, Kehua Sheng, Bo Zhang, Keqiang Li, Jingliang Duan, Shengbo Eben Li
cs.AI
Аннотация
Обучение с подкреплением (RL) значительно улучшило способность крупных языковых моделей к рассуждениям, однако существующие методы тонкой настройки на основе RL в значительной степени опираются на эвристические приемы, такие как регуляризация энтропии и перевзвешивание, для обеспечения стабильности. На практике они часто сталкиваются с коллапсом производительности на поздних этапах, что приводит к ухудшению качества рассуждений и нестабильности обучения. Мы выводим, что величина пошаговых градиентов политики в RL отрицательно коррелирует с вероятностью токена и локальной энтропией политики. Основываясь на этом результате, мы доказываем, что нестабильность обучения обусловлена крайне малой долей токенов, приблизительно 0,01%, которые мы называем ложными токенами. Когда такие токены появляются в правильных ответах, они мало влияют на результат рассуждений, но получают полное вознаграждение на уровне последовательности, что приводит к аномально усиленным обновлениям градиента. Руководствуясь этим наблюдением, мы предлагаем Оптимизацию политики с учетом ложных токенов (STAPO) для масштабного уточнения моделей, которая выборочно маскирует такие обновления и перенормирует потери по валидным токенам. На шести тестах математических рассуждений с использованием базовых моделей Qwen 1,7B, 8B и 14B метод STAPO стабильно демонстрирует превосходную стабильность энтропии и достигает среднего прироста производительности на 7,13% по сравнению с методами GRPO, 20-Entropy и JustRL.
English
Reinforcement Learning (RL) has significantly improved large language model reasoning, but existing RL fine-tuning methods rely heavily on heuristic techniques such as entropy regularization and reweighting to maintain stability. In practice, they often experience late-stage performance collapse, leading to degraded reasoning quality and unstable training. We derive that the magnitude of token-wise policy gradients in RL is negatively correlated with token probability and local policy entropy. Building on this result, we prove that training instability is driven by a tiny fraction of tokens, approximately 0.01\%, which we term spurious tokens. When such tokens appear in correct responses, they contribute little to the reasoning outcome but inherit the full sequence-level reward, leading to abnormally amplified gradient updates. Motivated by this observation, we propose Spurious-Token-Aware Policy Optimization (STAPO) for large-scale model refining, which selectively masks such updates and renormalizes the loss over valid tokens. Across six mathematical reasoning benchmarks using Qwen 1.7B, 8B, and 14B base models, STAPO consistently demonstrates superior entropy stability and achieves an average performance improvement of 7.13\% over GRPO, 20-Entropy and JustRL.