ChatPaper.aiChatPaper

Prosperità prima del Collasso: Fino a Dove Può Arrivare il Reinforcement Learning Off-Policy con Dati Obsoleti sugli LLM?

Prosperity before Collapse: How Far Can Off-Policy RL Reach with Stale Data on LLMs?

October 1, 2025
Autori: Haizhong Zheng, Jiawei Zhao, Bedi Chen
cs.AI

Abstract

L'apprendimento per rinforzo è stato centrale nei recenti progressi nel ragionamento dei modelli linguistici di grandi dimensioni, ma la maggior parte degli algoritmi si basa su un addestramento on-policy che richiede nuove iterazioni ad ogni aggiornamento, limitando efficienza e scalabilità. I sistemi RL asincroni mitigano questo problema disaccoppiando la generazione delle iterazioni dall'addestramento, ma la loro efficacia dipende dalla tolleranza di un elevato grado di obsolescenza nei dati delle iterazioni, un contesto in cui i metodi esistenti o peggiorano in termini di prestazioni o collassano. Riconsideriamo questa sfida e scopriamo un fenomeno di prosperità-prima-del-collasso: i dati obsoleti possono essere altrettanto informativi di quelli on-policy se sfruttati correttamente. Basandoci su questa intuizione, introduciamo M2PO (Second-Moment Trust Policy Optimization), che vincola il secondo momento dei pesi di importanza per sopprimere solo gli outlier estremi preservando aggiornamenti informativi. In particolare, M2PO riduce drasticamente la frazione di token tagliati in condizioni di elevata obsolescenza (da 1,22% a 0,06% durante l'addestramento), mascherando con precisione i token ad alta varianza mantenendo un'ottimizzazione stabile. Una valutazione estesa su sei modelli (da 1,7B a 32B) e otto benchmark dimostra che M2PO garantisce un addestramento off-policy stabile anche con dati obsoleti da almeno 256 aggiornamenti del modello, eguagliando le prestazioni on-policy.
English
Reinforcement learning has been central to recent advances in large language model reasoning, but most algorithms rely on on-policy training that demands fresh rollouts at every update, limiting efficiency and scalability. Asynchronous RL systems alleviate this by decoupling rollout generation from training, yet their effectiveness hinges on tolerating large staleness in rollout data, a setting where existing methods either degrade in performance or collapse. We revisit this challenge and uncover a prosperity-before-collapse phenomenon: stale data can be as informative as on-policy data if exploited properly. Building on this insight, we introduce M2PO (Second-Moment Trust Policy Optimization), which constrains the second moment of importance weights to suppress only extreme outliers while preserving informative updates. Notably, M2PO sharply reduces the fraction of clipped tokens under high staleness (from 1.22% to 0.06% over training), precisely masking high-variance tokens while maintaining stable optimization. Extensive evaluation across six models (from 1.7B to 32B) and eight benchmarks shows that M2PO delivers stable off-policy training even with data stale by at least 256 model updates and matches on-policy performance.
PDF122October 7, 2025