ChatPaper.aiChatPaper

Welvaart voor de Ineenstorting: Hoe Ver Kan Off-Policy RL Gaan met Verouderde Gegevens op LLM's?

Prosperity before Collapse: How Far Can Off-Policy RL Reach with Stale Data on LLMs?

October 1, 2025
Auteurs: Haizhong Zheng, Jiawei Zhao, Bedi Chen
cs.AI

Samenvatting

Reinforcement learning heeft een centrale rol gespeeld in recente vooruitgangen in het redeneren van grote taalmodellen, maar de meeste algoritmen vertrouwen op on-policy training die verse rollouts vereist bij elke update, wat de efficiëntie en schaalbaarheid beperkt. Asynchrone RL-systemen verlichten dit door het genereren van rollouts te ontkoppelen van training, maar hun effectiviteit hangt af van het tolereren van grote veroudering in rollout-data, een situatie waarin bestaande methoden ofwel in prestaties achteruitgaan of instorten. We herzien deze uitdaging en ontdekken een welvaart-voor-instortingsfenomeen: verouderde data kan net zo informatief zijn als on-policy data als deze op de juiste manier wordt benut. Op basis van dit inzicht introduceren we M2PO (Second-Moment Trust Policy Optimization), dat het tweede moment van belangrijkheidsgewichten beperkt om alleen extreme uitschieters te onderdrukken terwijl informatieve updates behouden blijven. Opmerkelijk is dat M2PO het aandeel van geknipte tokens onder hoge veroudering sterk reduceert (van 1,22% naar 0,06% tijdens de training), waarbij het precies hoge-variantie tokens maskeert terwijl een stabiele optimalisatie behouden blijft. Uitgebreide evaluatie over zes modellen (van 1,7B tot 32B) en acht benchmarks toont aan dat M2PO stabiele off-policy training biedt, zelfs met data die minstens 256 modelupdates verouderd is, en prestaties die overeenkomen met on-policy training.
English
Reinforcement learning has been central to recent advances in large language model reasoning, but most algorithms rely on on-policy training that demands fresh rollouts at every update, limiting efficiency and scalability. Asynchronous RL systems alleviate this by decoupling rollout generation from training, yet their effectiveness hinges on tolerating large staleness in rollout data, a setting where existing methods either degrade in performance or collapse. We revisit this challenge and uncover a prosperity-before-collapse phenomenon: stale data can be as informative as on-policy data if exploited properly. Building on this insight, we introduce M2PO (Second-Moment Trust Policy Optimization), which constrains the second moment of importance weights to suppress only extreme outliers while preserving informative updates. Notably, M2PO sharply reduces the fraction of clipped tokens under high staleness (from 1.22% to 0.06% over training), precisely masking high-variance tokens while maintaining stable optimization. Extensive evaluation across six models (from 1.7B to 32B) and eight benchmarks shows that M2PO delivers stable off-policy training even with data stale by at least 256 model updates and matches on-policy performance.
PDF122October 7, 2025