Отсутствующие старые логиты в асинхронном агентном обучении с подкреплением: семантическое несоответствие и методы исправления для коррекции вне политики

Аннотация

Асинхронное обучение с подкреплением повышает пропускную способность генерации траекторий для агентов на основе больших языковых моделей за счёт разделения генерации выборок и оптимизации политики, однако оно также вводит критический режим отказа для коррекции вне политики в стиле PPO. В гетерогенных системах обучения полное отношение важности должно быть в идеале разложено на два семантически различных фактора: член расхождения между обучением и инференсом, который согласует распределения на стороне инференса и на стороне обучения при одной и той же версии поведенческой политики, и член устаревания политики, который ограничивает обновление от исторической политики к текущей. Мы показываем, что практические асинхронные конвейеры с запаздывающими обновлениями и частичными развёртываниями часто теряют требуемые исторические логиты со стороны обучения, или старые логиты. Эта проблема отсутствия старых логитов запутывает коррекцию расхождения и коррекцию устаревания, нарушает предполагаемую семантику раздельной коррекции и приводит к нежелательному взаимодействию порогов обрезки и маскирования. Для решения этой проблемы мы исследуем как точные, так и приближённые пути коррекции. Мы предлагаем три стратегии точного получения старых логитов: отслеживание версий на основе снимков состояния, выделенную модель старых логитов и синхронизацию посредством прерывания частичного развёртывания, а также сравниваем их системные компромиссы. С точки зрения приближённой коррекции мы сосредотачиваемся на сохранении преимуществ раздельной коррекции за счёт использования более подходящей приближённой политики, когда точные старые логиты не могут быть восстановлены с низкими затратами, без внесения дополнительных системных накладных расходов. На основе этого анализа мы применяем модифицированный метод PPO-EWMA, который достигает значительных преимуществ как в скорости обучения, так и в качестве оптимизации. Код доступен по адресу https://github.com/millioniron/ROLL.

English

Asynchronous reinforcement learning improves rollout throughput for large language model agents by decoupling sample generation from policy optimization, but it also introduces a critical failure mode for PPO-style off-policy correction. In heterogeneous training systems, the total importance ratio should ideally be decomposed into two semantically distinct factors: a training--inference discrepancy term that aligns inference-side and training-side distributions at the same behavior-policy version, and a policy-staleness term that constrains the update from the historical policy to the current policy. We show that practical asynchronous pipelines with delayed updates and partial rollouts often lose the required historical training-side logits, or old logits. This missing-old-logit problem entangles discrepancy repair with staleness correction, breaks the intended semantics of decoupled correction, and makes clipping and masking thresholds interact undesirably. To address this issue, we study both exact and approximate correction routes. We propose three exact old-logit acquisition strategies: snapshot-based version tracking, a dedicated old-logit model, and synchronization via partial rollout interruption, and compare their system trade-offs. From the perspective of approximate correction, we focus on preserving the benefits of decoupled correction through a more appropriate approximate policy when exact old logits cannot be recovered at low cost, without incurring extra system overhead. Following this analysis, we adopt a revised PPO-EWMA method, which achieves significant gains in both training speed and optimization performance. Code at https://github.com/millioniron/ROLL.

Отсутствующие старые логиты в асинхронном агентном обучении с подкреплением: семантическое несоответствие и методы исправления для коррекции вне политики

Missing Old Logits in Asynchronous Agentic RL: Semantic Mismatch and Repair Methods for Off-Policy Correction

Аннотация

Support