ASPO: Оптимизация политики с асимметричным важностным выбором
ASPO: Asymmetric Importance Sampling Policy Optimization
October 7, 2025
Авторы: Jiakang Wang, Runze Liu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai
cs.AI
Аннотация
Современные методы пост-обучения крупных языковых моделей (LLM) опираются на механизмы обрезки на уровне токенов в процессе обучения с подкреплением (RL). Однако мы выявили фундаментальный недостаток в этой парадигме RL с контролем по результатам (OSRL): коэффициенты важности (IS) для токенов с положительным преимуществом оказываются несогласованными, что приводит к дисбалансу в весовых коэффициентах для положительных и отрицательных токенов. Это несоответствие подавляет обновление токенов с низкой вероятностью, одновременно чрезмерно усиливая уже высоковероятные токены. Для решения этой проблемы мы предлагаем метод оптимизации политики с асимметричным взвешиванием важности (ASPO), который использует простую, но эффективную стратегию, инвертирующую коэффициенты IS для токенов с положительным преимуществом, согласуя направление их обновления с динамикой обучения отрицательных токенов. ASPO также включает мягкий механизм двойной обрезки для стабилизации экстремальных обновлений при сохранении потока градиентов. Комплексные эксперименты на тестах по программированию и математическому рассуждению демонстрируют, что ASPO значительно снижает преждевременную сходимость, улучшает стабильность обучения и повышает итоговую производительность по сравнению с сильными базовыми методами на основе GRPO. Наш анализ предоставляет новые инсайты о роли взвешивания на уровне токенов в OSRL и подчеркивает критическую важность корректировки IS в RL для LLM. Код и модели ASPO доступны по адресу https://github.com/wizard-III/Archer2.0.
English
Recent Large Language Model (LLM) post-training methods rely on token-level
clipping mechanisms during Reinforcement Learning (RL). However, we identify a
fundamental flaw in this Outcome-Supervised RL (OSRL) paradigm: the Importance
Sampling (IS) ratios of positive-advantage tokens are mismatched, leading to
unbalanced token weighting for positive and negative tokens. This mismatch
suppresses the update of low-probability tokens while over-amplifying already
high-probability ones. To address this, we propose Asymmetric Importance
Sampling Policy Optimization (ASPO), which uses a simple yet effective strategy
that flips the IS ratios of positive-advantage tokens, aligning their update
direction with the learning dynamics of negative ones. AIS further incorporates
a soft dual-clipping mechanism to stabilize extreme updates while maintaining
gradient flow. Comprehensive experiments on coding and mathematical reasoning
benchmarks demonstrate that ASPO significantly mitigates premature convergence,
improves training stability, and enhances final performance over strong
GRPO-based baselines. Our analysis provides new insights into the role of
token-level weighting in OSRL and highlights the critical importance of
correcting IS in LLM RL. The code and models of ASPO are available at
https://github.com/wizard-III/Archer2.0.