OPID: On-Beleid Vaardigheidsdistillatie voor Agentisch Bekrachtigingsleren

Samenvatting

Uitkomstgebaseerd versterkend leren biedt een stabiele optimalisatieruggengraat voor taalagenten, maar de schaarse beloningen op trajectniveau geven weinig richting over welke tussentijdse beslissingen versterkt of onderdrukt moeten worden. On-policy zelfdistillatie biedt dichte supervisie op tokenniveau, maar bestaande vaardigheidsgeconditioneerde varianten zijn vaak afhankelijk van externe vaardigheidsgeheugens of opgehaalde bevoorrechte context, die kostbaar zijn om te onderhouden en niet kunnen overeenkomen met de toestandsverdeling die door het huidige beleid in meer-ronde interactie wordt geïnduceerd. Wij stellen OPID (On-Policy Skill Distillation) voor, een raamwerk dat vaardigheidssupervisie rechtstreeks extraheert uit voltooide on-policy trajecten. OPID vertegenwoordigt trajectterugblik als hiërarchische vaardigheden: vaardigheden op episodeniveau leggen globale workflows of faalvermijdingsregels vast, terwijl vaardigheden op stapniveau lokale beslissingskennis op kritieke tijdstippen vastleggen. Een kritiek-eerst routeringsmechanisme gebruikt vaardigheden op stapniveau wanneer kritieke beslissingen worden geïdentificeerd en valt anders terug op vaardigheden op episodeniveau als standaardrichtlijn. De geselecteerde vaardigheid wordt geïnjecteerd in de interactiegeschiedenis, waardoor het oude beleid dezelfde bemonsterde reactie opnieuw kan scoren onder zowel de originele als de vaardigheids-augmenteerde contexten. De resulterende log-kansverschuiving levert een token-niveau zelfdistillatievoordeel op, dat wordt gecombineerd met het uitkomstvoordeel voor beleidsoptimalisatie. OPID behoudt dus RL als het primaire trainingsdoel terwijl het dichte, distributie-gematchte terugbliksupervisie introduceert. Experimenten op ALFWorld, WebShop en zoekgebaseerde QA tonen aan dat OPID over het algemeen de prestaties van agenten, de steekproefefficiëntie en de robuustheid verbetert ten opzichte van alleen-uitkomst RL en bestaande vaardigheidsdistillatie-baselines. Onze code is beschikbaar op https://github.com/jinyangwu/OPID/tree/main.

English

Outcome-based reinforcement learning provides a stable optimization backbone for language agents, but its sparse trajectory-level rewards provide little guidance on which intermediate decisions should be reinforced or suppressed. On-policy self-distillation offers dense token-level supervision, yet existing skill-conditioned variants often rely on external skill memories or retrieved privileged context, which are costly to maintain and can be mismatched with the state distribution induced by the current policy in multi-turn interaction. We propose OPID (On-Policy Skill Distillation), a framework that extracts skill supervision directly from completed on-policy trajectories. OPID represents trajectory hindsight as hierarchical skills: episode-level skills capture global workflows or failure-avoidance rules, while step-level skills capture local decision knowledge at critical timesteps. A critical-first routing mechanism uses step-level skills when critical decisions are identified and falls back to episode-level skills as default guidance otherwise. The selected skill is injected into the interaction history, allowing the old policy to re-score the same sampled response under both original and skill-augmented contexts. The resulting log-probability shift yields a token-level self-distillation advantage, which is combined with the outcome advantage for policy optimization. OPID thus preserves RL as the primary training objective while introducing dense, distribution-matched hindsight supervision. Experiments on ALFWorld, WebShop and Search-based QA demonstrate that OPID generally improves agent performance, sample efficiency, and robustness over outcome-only RL and existing skill-distillation baselines. Our code is available at https://github.com/jinyangwu/OPID/tree/main.