Zelfgedestilleerd agentisch reinforcement learning

Samenvatting

Reinforcement learning (RL) is uitgegroeid tot een centraal paradigma voor de natraining van LLM-agenten, maar het beloningssignaal op trajectniveau biedt slechts grove supervisie voor interactie over lange horizon. On-Policy Self-Distillation (OPSD) vult RL aan door dichte begeleiding op tokenniveau te introduceren vanuit een teacher-tak die is voorzien van bevoorrechte context. Het overbrengen van OPSD naar multi-turn-agenten blijkt echter problematisch: cumulatieve multi-turn-instabiliteit verstoort de supervisie, terwijl vaardigheidsafhankelijke bevoorrechte begeleiding een asymmetrische behandeling vereist van negatieve teacher-afwijzingen die kunnen voortkomen uit imperfecte vaardigheden ophalen of gebruiken. Wij introduceren SDAR (Self-Distilled Agentic Reinforcement Learning), dat OPSD behandelt als een gated hulpdoelstelling, terwijl RL de primaire optimalisatieruggengraat blijft. SDAR koppelt losgekoppelde signalen op tokenniveau aan een sigmoid-poort, waardoor distillatie wordt versterkt voor door de teacher onderschreven tokens met een positieve kloof en negatieve teacher-afwijzingen zachtjes worden verzwakt. Binnen de Qwen2.5- en Qwen3-families op ALFWorld, WebShop en Search-QA levert SDAR aanzienlijke verbeteringen op ten opzichte van GRPO (+9,4% op ALFWorld, +7,0% op Search-QA, +10,2% op WebShop-Acc), voorkomt het de instabiliteit van naïeve GRPO+OPSD en presteert het consistent beter dan hybride RL-OPSD-baselines over verschillende modelschalen.

English

Reinforcement learning (RL) has emerged as a central paradigm for post-training LLM agents, yet its trajectory-level reward signal provides only coarse supervision for long-horizon interaction. On-Policy Self-Distillation (OPSD) complements RL by introducing dense token-level guidance from a teacher branch augmented with privileged context. However, transferring OPSD to multi-turn agents proves problematic: compounding multi-turn instability destabilizes supervision, while skill-conditioned privileged guidance requires asymmetric treatment for negative teacher rejections may arise from imperfect skills retrieval or utilization. We introduce SDAR (Self-Distilled Agentic Reinforcement Learning), which treats OPSD as a gated auxiliary objective while keeping RL as the primary optimization backbone. SDAR maps detached token-level signals into a sigmoid gate, strengthening distillation on teacher-endorsed positive-gap tokens and softly attenuating negative teacher rejections. Across the Qwen2.5 and Qwen3 families on ALFWorld, WebShop, and Search-QA, SDAR substantially improves over GRPO (+9.4% on ALFWorld, +7.0% on Search-QA, +10.2% on WebShop-Acc), avoids the instability of naive GRPO+OPSD, and consistently outperforms hybrid RL--OPSD baselines across model scales.