Selbstdestilliertes agentisches Reinforcement Learning

Zusammenfassung

Reinforcement Learning (RL) hat sich als zentrales Paradigma für das Post-Training von LLM-Agenten etabliert, doch das belohnungsbasierte Signal auf Trajektorienebene bietet für langfristige Interaktionen nur eine grobe Steuerung. On-Policy Self-Distillation (OPSD) ergänzt RL durch dichte tokenweise Anleitung von einem Lehrerzweig, der mit privilegierten Kontextinformationen angereichert ist. Die Übertragung von OPSD auf mehrfach interagierende Agenten erweist sich jedoch als problematisch: Die sich verstärkende Instabilität bei mehreren Interaktionen erschwert die Steuerung, während fähigkeitskonditionierte privilegierte Anleitung eine asymmetrische Behandlung erfordert – negative Ablehnungen durch den Lehrer können auf unvollständige Fähigkeitssuche oder -nutzung zurückgehen. Wir stellen SDAR (Self-Distilled Agentic Reinforcement Learning) vor, das OPSD als ein durch Gatter gesteuertes Hilfsziel behandelt, während RL als primäres Optimierungsrückgrat erhalten bleibt. SDAR überführt losgelöste tokenweise Signale in ein Sigmoid-Gatter, verstärkt die Destillation bei von Lehrern befürworteten positiven Abweichungstoken und dämpft negative Lehrerablehnungen sanft ab. In den Qwen2.5- und Qwen3-Familien zu ALFWorld, WebShop und Search-QA verbessert SDAR die Ergebnisse gegenüber GRPO erheblich (+9,4% bei ALFWorld, +7,0% bei Search-QA, +10,2% bei WebShop-Acc), vermeidet die Instabilität von einfachem GRPO+OPSD und übertrifft durchgehend hybride RL–OPSD-Baselines über verschiedene Modellgrößen hinweg.

English

Reinforcement learning (RL) has emerged as a central paradigm for post-training LLM agents, yet its trajectory-level reward signal provides only coarse supervision for long-horizon interaction. On-Policy Self-Distillation (OPSD) complements RL by introducing dense token-level guidance from a teacher branch augmented with privileged context. However, transferring OPSD to multi-turn agents proves problematic: compounding multi-turn instability destabilizes supervision, while skill-conditioned privileged guidance requires asymmetric treatment for negative teacher rejections may arise from imperfect skills retrieval or utilization. We introduce SDAR (Self-Distilled Agentic Reinforcement Learning), which treats OPSD as a gated auxiliary objective while keeping RL as the primary optimization backbone. SDAR maps detached token-level signals into a sigmoid gate, strengthening distillation on teacher-endorsed positive-gap tokens and softly attenuating negative teacher rejections. Across the Qwen2.5 and Qwen3 families on ALFWorld, WebShop, and Search-QA, SDAR substantially improves over GRPO (+9.4% on ALFWorld, +7.0% on Search-QA, +10.2% on WebShop-Acc), avoids the instability of naive GRPO+OPSD, and consistently outperforms hybrid RL--OPSD baselines across model scales.