ASPO : Optimisation de Politique par Échantillonnage d'Importance Asymétrique
ASPO: Asymmetric Importance Sampling Policy Optimization
October 7, 2025
papers.authors: Jiakang Wang, Runze Liu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai
cs.AI
papers.abstract
Les méthodes récentes de post-entraînement des modèles de langage de grande taille (LLM) reposent sur des mécanismes de découpage au niveau des tokens lors de l'apprentissage par renforcement (RL). Cependant, nous identifions une faille fondamentale dans ce paradigme de RL supervisé par les résultats (OSRL) : les ratios d'échantillonnage d'importance (IS) des tokens à avantage positif sont mal alignés, entraînant une pondération déséquilibrée entre les tokens positifs et négatifs. Ce désalignement supprime la mise à jour des tokens de faible probabilité tout en amplifiant excessivement ceux déjà de haute probabilité. Pour remédier à cela, nous proposons l'Optimisation de Politique par Échantillonnage d'Importance Asymétrique (ASPO), qui utilise une stratégie simple mais efficace en inversant les ratios IS des tokens à avantage positif, alignant ainsi leur direction de mise à jour avec la dynamique d'apprentissage des tokens négatifs. ASPO intègre également un mécanisme de double découpage doux pour stabiliser les mises à jour extrêmes tout en maintenant le flux de gradients. Des expériences approfondies sur des benchmarks de codage et de raisonnement mathématique démontrent qu'ASPO atténue significativement la convergence prématurée, améliore la stabilité de l'entraînement et renforce les performances finales par rapport aux bases de référence basées sur GRPO. Notre analyse apporte de nouvelles perspectives sur le rôle de la pondération au niveau des tokens dans l'OSRL et souligne l'importance cruciale de la correction de l'IS dans le RL des LLM. Le code et les modèles d'ASPO sont disponibles à l'adresse https://github.com/wizard-III/Archer2.0.
English
Recent Large Language Model (LLM) post-training methods rely on token-level
clipping mechanisms during Reinforcement Learning (RL). However, we identify a
fundamental flaw in this Outcome-Supervised RL (OSRL) paradigm: the Importance
Sampling (IS) ratios of positive-advantage tokens are mismatched, leading to
unbalanced token weighting for positive and negative tokens. This mismatch
suppresses the update of low-probability tokens while over-amplifying already
high-probability ones. To address this, we propose Asymmetric Importance
Sampling Policy Optimization (ASPO), which uses a simple yet effective strategy
that flips the IS ratios of positive-advantage tokens, aligning their update
direction with the learning dynamics of negative ones. AIS further incorporates
a soft dual-clipping mechanism to stabilize extreme updates while maintaining
gradient flow. Comprehensive experiments on coding and mathematical reasoning
benchmarks demonstrate that ASPO significantly mitigates premature convergence,
improves training stability, and enhances final performance over strong
GRPO-based baselines. Our analysis provides new insights into the role of
token-level weighting in OSRL and highlights the critical importance of
correcting IS in LLM RL. The code and models of ASPO are available at
https://github.com/wizard-III/Archer2.0.