ChatPaper.aiChatPaper

Prospérité avant l'effondrement : Jusqu'où l'apprentissage par renforcement hors-politique peut-il aller avec des données obsolètes sur les LLM ?

Prosperity before Collapse: How Far Can Off-Policy RL Reach with Stale Data on LLMs?

October 1, 2025
papers.authors: Haizhong Zheng, Jiawei Zhao, Bedi Chen
cs.AI

papers.abstract

L'apprentissage par renforcement a joué un rôle central dans les récents progrès en matière de raisonnement des grands modèles de langage, mais la plupart des algorithmes reposent sur un entraînement sur-politique qui nécessite de nouvelles simulations à chaque mise à jour, limitant ainsi l'efficacité et l'évolutivité. Les systèmes d'apprentissage par renforcement asynchrones atténuent ce problème en découplant la génération des simulations de l'entraînement, mais leur efficacité dépend de la tolérance à une grande obsolescence des données de simulation, un contexte dans lequel les méthodes existantes voient soit une dégradation de leurs performances, soit un effondrement. Nous revisitons ce défi et mettons en évidence un phénomène de prospérité avant effondrement : les données obsolètes peuvent être aussi informatives que les données sur-politiques si elles sont exploitées correctement. Sur la base de cette observation, nous introduisons M2PO (Second-Moment Trust Policy Optimization), qui contraint le second moment des poids d'importance pour supprimer uniquement les valeurs aberrantes extrêmes tout en préservant les mises à jour informatives. Notamment, M2PO réduit considérablement la fraction de tokens coupés sous une forte obsolescence (de 1,22 % à 0,06 % pendant l'entraînement), masquant précisément les tokens à forte variance tout en maintenant une optimisation stable. Une évaluation approfondie sur six modèles (de 1,7 milliard à 32 milliards de paramètres) et huit benchmarks montre que M2PO permet un entraînement hors-politique stable même avec des données obsolètes d'au moins 256 mises à jour du modèle et atteint des performances comparables à celles d'un entraînement sur-politique.
English
Reinforcement learning has been central to recent advances in large language model reasoning, but most algorithms rely on on-policy training that demands fresh rollouts at every update, limiting efficiency and scalability. Asynchronous RL systems alleviate this by decoupling rollout generation from training, yet their effectiveness hinges on tolerating large staleness in rollout data, a setting where existing methods either degrade in performance or collapse. We revisit this challenge and uncover a prosperity-before-collapse phenomenon: stale data can be as informative as on-policy data if exploited properly. Building on this insight, we introduce M2PO (Second-Moment Trust Policy Optimization), which constrains the second moment of importance weights to suppress only extreme outliers while preserving informative updates. Notably, M2PO sharply reduces the fraction of clipped tokens under high staleness (from 1.22% to 0.06% over training), precisely masking high-variance tokens while maintaining stable optimization. Extensive evaluation across six models (from 1.7B to 32B) and eight benchmarks shows that M2PO delivers stable off-policy training even with data stale by at least 256 model updates and matches on-policy performance.
PDF122October 7, 2025