Logits anciens manquants dans l'apprentissage par renforcement agentique asynchrone : décalage sémantique et méthodes de correction pour la correction hors politique

Résumé

L'apprentissage par renforcement asynchrone améliore le débit de déploiement pour les agents basés sur de grands modèles de langage en découplant la génération d'échantillons de l'optimisation de la politique, mais il introduit également un mode de défaillance critique pour la correction hors-politique de type PPO. Dans les systèmes d'entraînement hétérogènes, le rapport d'importance total devrait idéalement être décomposé en deux facteurs sémantiquement distincts : un terme de divergence entraînement-inférence qui aligne les distributions côté inférence et côté entraînement à la même version de la politique de comportement, et un terme d'obsolescence de la politique qui contraint la mise à jour de la politique historique vers la politique actuelle. Nous montrons que les pipelines asynchrones pratiques avec des mises à jour retardées et des déploiements partiels perdent souvent les logits historiques côté entraînement requis, ou logits anciens. Ce problème des logits anciens manquants entremêle la réparation de la divergence avec la correction de l'obsolescence, brise la sémantique prévue de la correction découplée et fait interagir les seuils de clipping et de masquage de manière indésirable. Pour résoudre ce problème, nous étudions à la fois les voies de correction exacte et approchée. Nous proposons trois stratégies exactes d'acquisition de logits anciens : le suivi de version par instantané, un modèle dédié de logits anciens, et la synchronisation par interruption partielle de déploiement, et comparons leurs compromis système. Du point de vue de la correction approchée, nous nous concentrons sur la préservation des avantages de la correction découplée via une politique approchée plus appropriée lorsque les logits anciens exacts ne peuvent pas être récupérés à faible coût, sans engendrer de surcharge système supplémentaire. Suite à cette analyse, nous adoptons une méthode PPO-EWMA révisée, qui réalise des gains significatifs à la fois en vitesse d'entraînement et en performance d'optimisation. Code disponible sur https://github.com/millioniron/ROLL.

English

Asynchronous reinforcement learning improves rollout throughput for large language model agents by decoupling sample generation from policy optimization, but it also introduces a critical failure mode for PPO-style off-policy correction. In heterogeneous training systems, the total importance ratio should ideally be decomposed into two semantically distinct factors: a training--inference discrepancy term that aligns inference-side and training-side distributions at the same behavior-policy version, and a policy-staleness term that constrains the update from the historical policy to the current policy. We show that practical asynchronous pipelines with delayed updates and partial rollouts often lose the required historical training-side logits, or old logits. This missing-old-logit problem entangles discrepancy repair with staleness correction, breaks the intended semantics of decoupled correction, and makes clipping and masking thresholds interact undesirably. To address this issue, we study both exact and approximate correction routes. We propose three exact old-logit acquisition strategies: snapshot-based version tracking, a dedicated old-logit model, and synchronization via partial rollout interruption, and compare their system trade-offs. From the perspective of approximate correction, we focus on preserving the benefits of decoupled correction through a more appropriate approximate policy when exact old logits cannot be recovered at low cost, without incurring extra system overhead. Following this analysis, we adopt a revised PPO-EWMA method, which achieves significant gains in both training speed and optimization performance. Code at https://github.com/millioniron/ROLL.

Logits anciens manquants dans l'apprentissage par renforcement agentique asynchrone : décalage sémantique et méthodes de correction pour la correction hors politique

Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

Résumé

Support