OPID: Дистилляция навыков на политике для агентного обучения с подкреплением

Аннотация

Обучение с подкреплением на основе результатов обеспечивает стабильную основу для оптимизации языковых агентов, однако его разреженные награды на уровне траекторий дают мало указаний на то, какие промежуточные решения следует усиливать или подавлять. Самодистилляция на политике предоставляет плотный контроль на уровне токенов, но существующие варианты, обусловленные навыками, часто полагаются на внешние хранилища навыков или извлечённый привилегированный контекст, которые дороги в поддержке и могут не соответствовать распределению состояний, порождаемому текущей политикой в многошаговом взаимодействии. Мы предлагаем OPID (On-Policy Skill Distillation — дистилляция навыков на политике) — подход, извлекающий контроль навыков непосредственно из завершённых траекторий, полученных на текущей политике. OPID представляет ретроспективу траектории в виде иерархических навыков: навыки уровня эпизода отражают глобальные рабочие процессы или правила предотвращения ошибок, а навыки уровня шага фиксируют локальные знания о решениях на критических временных шагах. Механизм маршрутизации с приоритетом критических шагов использует навыки уровня шага, когда выявлены критические решения, и в противном случае возвращается к навыкам уровня эпизода в качестве стандартного руководства. Выбранный навык внедряется в историю взаимодействия, что позволяет старой политике заново оценить тот же сэмплированный ответ как в исходном, так и в дополненном навыками контексте. Полученный сдвиг логарифмических вероятностей порождает преимущество самодистилляции на уровне токенов, которое комбинируется с преимуществом по результату для оптимизации политики. Таким образом, OPID сохраняет обучение с подкреплением в качестве основной цели обучения, одновременно вводя плотную, согласованную с распределением ретроспективную супервизию. Эксперименты на ALFWorld, WebShop и поисковом QA показывают, что OPID в целом улучшает производительность агента, эффективность использования выборки и устойчивость по сравнению с обучением с подкреплением, основанным только на результатах, и существующими базовыми методами дистилляции навыков. Наш код доступен по адресу https://github.com/jinyangwu/OPID/tree/main.

English

Outcome-based reinforcement learning provides a stable optimization backbone for language agents, but its sparse trajectory-level rewards provide little guidance on which intermediate decisions should be reinforced or suppressed. On-policy self-distillation offers dense token-level supervision, yet existing skill-conditioned variants often rely on external skill memories or retrieved privileged context, which are costly to maintain and can be mismatched with the state distribution induced by the current policy in multi-turn interaction. We propose OPID (On-Policy Skill Distillation), a framework that extracts skill supervision directly from completed on-policy trajectories. OPID represents trajectory hindsight as hierarchical skills: episode-level skills capture global workflows or failure-avoidance rules, while step-level skills capture local decision knowledge at critical timesteps. A critical-first routing mechanism uses step-level skills when critical decisions are identified and falls back to episode-level skills as default guidance otherwise. The selected skill is injected into the interaction history, allowing the old policy to re-score the same sampled response under both original and skill-augmented contexts. The resulting log-probability shift yields a token-level self-distillation advantage, which is combined with the outcome advantage for policy optimization. OPID thus preserves RL as the primary training objective while introducing dense, distribution-matched hindsight supervision. Experiments on ALFWorld, WebShop and Search-based QA demonstrate that OPID generally improves agent performance, sample efficiency, and robustness over outcome-only RL and existing skill-distillation baselines. Our code is available at https://github.com/jinyangwu/OPID/tree/main.