Logits Antiguos Faltantes en RL Agentico Asíncrono: Desajuste Semántico y Métodos de Reparación para la Corrección Off-Policy

Resumen

El aprendizaje por refuerzo asíncrono mejora el rendimiento de generación de secuencias para agentes basados en modelos de lenguaje de gran escala al desacoplar la generación de muestras de la optimización de la política, pero también introduce un modo de fallo crítico para la corrección fuera de política estilo PPO. En sistemas de entrenamiento heterogéneos, la razón de importancia total debería idealmente descomponerse en dos factores semánticamente distintos: un término de discrepancia entrenamiento-inferencia que alinea las distribuciones del lado de inferencia y del lado de entrenamiento en la misma versión de la política de comportamiento, y un término de desactualización de la política que restringe la actualización desde la política histórica hacia la política actual. Demostramos que los pipelines asíncronos prácticos con actualizaciones retardadas y generaciones parciales a menudo pierden los logits históricos requeridos del lado de entrenamiento, o logits antiguos. Este problema de logits antiguos faltantes enreda la corrección de la discrepancia con la corrección de la desactualización, rompe la semántica pretendida de la corrección desacoplada y hace que los umbrales de recorte y enmascaramiento interactúen de manera indeseable. Para abordar este problema, estudiamos rutas de corrección tanto exactas como aproximadas. Proponemos tres estrategias exactas de adquisición de logits antiguos: seguimiento de versiones basado en instantáneas, un modelo dedicado de logits antiguos y sincronización mediante interrupción parcial de generación, y comparamos sus compensaciones a nivel de sistema. Desde la perspectiva de la corrección aproximada, nos centramos en preservar los beneficios de la corrección desacoplada mediante una política aproximada más adecuada cuando no es posible recuperar logits antiguos exactos a bajo costo, sin incurrir en una sobrecarga adicional del sistema. Siguiendo este análisis, adoptamos un método PPO-EWMA revisado, que logra ganancias significativas tanto en velocidad de entrenamiento como en rendimiento de optimización. Código en https://github.com/millioniron/ROLL.

English

Asynchronous reinforcement learning improves rollout throughput for large language model agents by decoupling sample generation from policy optimization, but it also introduces a critical failure mode for PPO-style off-policy correction. In heterogeneous training systems, the total importance ratio should ideally be decomposed into two semantically distinct factors: a training--inference discrepancy term that aligns inference-side and training-side distributions at the same behavior-policy version, and a policy-staleness term that constrains the update from the historical policy to the current policy. We show that practical asynchronous pipelines with delayed updates and partial rollouts often lose the required historical training-side logits, or old logits. This missing-old-logit problem entangles discrepancy repair with staleness correction, breaks the intended semantics of decoupled correction, and makes clipping and masking thresholds interact undesirably. To address this issue, we study both exact and approximate correction routes. We propose three exact old-logit acquisition strategies: snapshot-based version tracking, a dedicated old-logit model, and synchronization via partial rollout interruption, and compare their system trade-offs. From the perspective of approximate correction, we focus on preserving the benefits of decoupled correction through a more appropriate approximate policy when exact old logits cannot be recovered at low cost, without incurring extra system overhead. Following this analysis, we adopt a revised PPO-EWMA method, which achieves significant gains in both training speed and optimization performance. Code at https://github.com/millioniron/ROLL.

Logits Antiguos Faltantes en RL Agentico Asíncrono: Desajuste Semántico y Métodos de Reparación para la Corrección Off-Policy

Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

Resumen

Support