Fehlende alte Logits im asynchronen agentischen RL: Semantische Fehlanpassung und Reparaturmethoden zur Off-Policy-Korrektur

Zusammenfassung

Asynchrones Reinforcement Learning verbessert den Rollout-Durchsatz für große Sprachmodell-Agenten, indem die Stichprobengenerierung von der Policy-Optimierung entkoppelt wird, führt jedoch auch eine kritische Fehlerart für die Off-Policy-Korrektur nach PPO-Art ein. In heterogenen Trainingssystemen sollte das gesamte Importance-Ratio idealerweise in zwei semantisch unterschiedliche Faktoren zerlegt werden: einen Term für die Trainings-Inferenz-Diskrepanz, der die Inferenz-seitige und die Trainings-seitige Verteilung bei derselben Version der Verhaltenspolitik angleicht, sowie einen Term für die Policy-Veralterung, der die Aktualisierung von der historischen Policy zur aktuellen Policy beschränkt. Wir zeigen, dass praktische asynchrone Pipelines mit verzögerten Aktualisierungen und partiellen Rollouts häufig die erforderlichen historischen Trainings-seitigen Logits (alte Logits) verlieren. Dieses Problem der fehlenden alten Logits verwickelt die Diskrepanzbehebung mit der Veralterungskorrektur, untergräbt die beabsichtigte Semantik der entkoppelten Korrektur und führt zu unerwünschten Wechselwirkungen zwischen Clipping- und Maskierungsschwellen. Um dieses Problem zu adressieren, untersuchen wir sowohl exakte als auch approximative Korrekturwege. Wir schlagen drei exakte Strategien zur Gewinnung alter Logits vor: versionsbasiertes Snapshot-Tracking, ein dediziertes Alt-Logit-Modell und Synchronisation durch Unterbrechung partieller Rollouts, und vergleichen ihre Systemkompromisse. Aus der Perspektive der approximativen Korrektur konzentrieren wir uns darauf, die Vorteile der entkoppelten Korrektur durch eine geeignetere approximative Policy zu bewahren, wenn exakte alte Logits nicht kostengünstig wiederhergestellt werden können, ohne zusätzlichen Systemaufwand zu verursachen. Basierend auf dieser Analyse übernehmen wir eine überarbeitete PPO-EWMA-Methode, die sowohl in der Trainingsgeschwindigkeit als auch in der Optimierungsleistung deutliche Verbesserungen erzielt. Code unter https://github.com/millioniron/ROLL.

English

Asynchronous reinforcement learning improves rollout throughput for large language model agents by decoupling sample generation from policy optimization, but it also introduces a critical failure mode for PPO-style off-policy correction. In heterogeneous training systems, the total importance ratio should ideally be decomposed into two semantically distinct factors: a training--inference discrepancy term that aligns inference-side and training-side distributions at the same behavior-policy version, and a policy-staleness term that constrains the update from the historical policy to the current policy. We show that practical asynchronous pipelines with delayed updates and partial rollouts often lose the required historical training-side logits, or old logits. This missing-old-logit problem entangles discrepancy repair with staleness correction, breaks the intended semantics of decoupled correction, and makes clipping and masking thresholds interact undesirably. To address this issue, we study both exact and approximate correction routes. We propose three exact old-logit acquisition strategies: snapshot-based version tracking, a dedicated old-logit model, and synchronization via partial rollout interruption, and compare their system trade-offs. From the perspective of approximate correction, we focus on preserving the benefits of decoupled correction through a more appropriate approximate policy when exact old logits cannot be recovered at low cost, without incurring extra system overhead. Following this analysis, we adopt a revised PPO-EWMA method, which achieves significant gains in both training speed and optimization performance. Code at https://github.com/millioniron/ROLL.

Fehlende alte Logits im asynchronen agentischen RL: Semantische Fehlanpassung und Reparaturmethoden zur Off-Policy-Korrektur

Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

Zusammenfassung

Support