Zelfgedestilleerd agentisch reinforcement learning
Self-Distilled Agentic Reinforcement Learning
May 14, 2026
Auteurs: Zhengxi Lu, Zhiyuan Yao, Zhuowen Han, Zi-Han Wang, Jinyang Wu, Qi Gu, Xunliang Cai, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
cs.AI
Samenvatting
Reinforcement learning (RL) is uitgegroeid tot een centraal paradigma voor de natraining van LLM-agenten, maar het beloningssignaal op trajectniveau biedt slechts grove supervisie voor interactie over lange horizon. On-Policy Self-Distillation (OPSD) vult RL aan door dichte begeleiding op tokenniveau te introduceren vanuit een teacher-tak die is voorzien van bevoorrechte context. Het overbrengen van OPSD naar multi-turn-agenten blijkt echter problematisch: cumulatieve multi-turn-instabiliteit verstoort de supervisie, terwijl vaardigheidsafhankelijke bevoorrechte begeleiding een asymmetrische behandeling vereist van negatieve teacher-afwijzingen die kunnen voortkomen uit imperfecte vaardigheden ophalen of gebruiken. Wij introduceren SDAR (Self-Distilled Agentic Reinforcement Learning), dat OPSD behandelt als een gated hulpdoelstelling, terwijl RL de primaire optimalisatieruggengraat blijft. SDAR koppelt losgekoppelde signalen op tokenniveau aan een sigmoid-poort, waardoor distillatie wordt versterkt voor door de teacher onderschreven tokens met een positieve kloof en negatieve teacher-afwijzingen zachtjes worden verzwakt. Binnen de Qwen2.5- en Qwen3-families op ALFWorld, WebShop en Search-QA levert SDAR aanzienlijke verbeteringen op ten opzichte van GRPO (+9,4% op ALFWorld, +7,0% op Search-QA, +10,2% op WebShop-Acc), voorkomt het de instabiliteit van naïeve GRPO+OPSD en presteert het consistent beter dan hybride RL-OPSD-baselines over verschillende modelschalen.
English
Reinforcement learning (RL) has emerged as a central paradigm for post-training LLM agents, yet its trajectory-level reward signal provides only coarse supervision for long-horizon interaction. On-Policy Self-Distillation (OPSD) complements RL by introducing dense token-level guidance from a teacher branch augmented with privileged context. However, transferring OPSD to multi-turn agents proves problematic: compounding multi-turn instability destabilizes supervision, while skill-conditioned privileged guidance requires asymmetric treatment for negative teacher rejections may arise from imperfect skills retrieval or utilization. We introduce SDAR (Self-Distilled Agentic Reinforcement Learning), which treats OPSD as a gated auxiliary objective while keeping RL as the primary optimization backbone. SDAR maps detached token-level signals into a sigmoid gate, strengthening distillation on teacher-endorsed positive-gap tokens and softly attenuating negative teacher rejections. Across the Qwen2.5 and Qwen3 families on ALFWorld, WebShop, and Search-QA, SDAR substantially improves over GRPO (+9.4% on ALFWorld, +7.0% on Search-QA, +10.2% on WebShop-Acc), avoids the instability of naive GRPO+OPSD, and consistently outperforms hybrid RL--OPSD baselines across model scales.