ASPO: Ottimizzazione delle Politiche con Campionamento di Importanza Asimmetrico
ASPO: Asymmetric Importance Sampling Policy Optimization
October 7, 2025
Autori: Jiakang Wang, Runze Liu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai
cs.AI
Abstract
I recenti metodi di post-addestramento per i Large Language Model (LLM) si basano su meccanismi di clipping a livello di token durante il Reinforcement Learning (RL). Tuttavia, identifichiamo un difetto fondamentale in questo paradigma di RL supervisionato dagli esiti (OSRL): i rapporti di Importance Sampling (IS) per i token con vantaggio positivo sono disallineati, portando a una ponderazione sbilanciata tra token positivi e negativi. Questo disallineamento sopprime l'aggiornamento dei token a bassa probabilità mentre amplifica eccessivamente quelli già ad alta probabilità. Per affrontare questo problema, proponiamo l'Asymmetric Importance Sampling Policy Optimization (ASPO), che utilizza una strategia semplice ma efficace che inverte i rapporti IS dei token con vantaggio positivo, allineando la loro direzione di aggiornamento con la dinamica di apprendimento di quelli negativi. ASPO incorpora inoltre un meccanismo di soft dual-clipping per stabilizzare gli aggiornamenti estremi mantenendo il flusso del gradiente. Esperimenti completi su benchmark di codifica e ragionamento matematico dimostrano che ASPO mitiga significativamente la convergenza prematura, migliora la stabilità dell'addestramento e potenzia le prestazioni finali rispetto a baseline basate su GRPO. La nostra analisi fornisce nuove intuizioni sul ruolo della ponderazione a livello di token nell'OSRL e sottolinea l'importanza cruciale di correggere l'IS nel RL per LLM. Il codice e i modelli di ASPO sono disponibili su https://github.com/wizard-III/Archer2.0.
English
Recent Large Language Model (LLM) post-training methods rely on token-level
clipping mechanisms during Reinforcement Learning (RL). However, we identify a
fundamental flaw in this Outcome-Supervised RL (OSRL) paradigm: the Importance
Sampling (IS) ratios of positive-advantage tokens are mismatched, leading to
unbalanced token weighting for positive and negative tokens. This mismatch
suppresses the update of low-probability tokens while over-amplifying already
high-probability ones. To address this, we propose Asymmetric Importance
Sampling Policy Optimization (ASPO), which uses a simple yet effective strategy
that flips the IS ratios of positive-advantage tokens, aligning their update
direction with the learning dynamics of negative ones. AIS further incorporates
a soft dual-clipping mechanism to stabilize extreme updates while maintaining
gradient flow. Comprehensive experiments on coding and mathematical reasoning
benchmarks demonstrate that ASPO significantly mitigates premature convergence,
improves training stability, and enhances final performance over strong
GRPO-based baselines. Our analysis provides new insights into the role of
token-level weighting in OSRL and highlights the critical importance of
correcting IS in LLM RL. The code and models of ASPO are available at
https://github.com/wizard-III/Archer2.0.