Apprentissage par renforcement agentique auto-distillé

Résumé

L'apprentissage par renforcement (RL) s'est imposé comme un paradigme central pour le post-entraînement des agents LLM, mais son signal de récompense au niveau de la trajectoire ne fournit qu'une supervision grossière pour les interactions à long horizon. L'auto-distillation sur politique (OPSD) complète le RL en introduisant un guidage dense au niveau des jetons, provenant d'une branche enseignante enrichie d'un contexte privilégié. Cependant, le transfert de l'OPSD à des agents multi-tours s'avère problématique : l'instabilité composée des interactions multi-tours déstabilise la supervision, tandis que le guidage privilégié conditionné par les compétences nécessite un traitement asymétrique, car les rejets négatifs de l'enseignant peuvent découler d'une récupération ou d'une utilisation imparfaite des compétences. Nous introduisons SDAR (Self-Distilled Agentic Reinforcement Learning), qui traite l'OPSD comme un objectif auxiliaire à porte tout en conservant le RL comme colonne vertébrale d'optimisation principale. SDAR projette les signaux détachés au niveau des jetons dans une porte sigmoïde, renforçant la distillation sur les jetons à écart positif approuvés par l'enseignant et atténuant doucement les rejets négatifs de l'enseignant. Sur les familles Qwen2.5 et Qwen3 évaluées sur ALFWorld, WebShop et Search-QA, SDAR améliore considérablement les performances par rapport à GRPO (+9,4 % sur ALFWorld, +7,0 % sur Search-QA, +10,2 % sur WebShop-Acc), évite l'instabilité de l'approche naïve GRPO+OPSD, et surpasse systématiquement les méthodes hybrides RL-OPSD à différentes échelles de modèle.

English

Reinforcement learning (RL) has emerged as a central paradigm for post-training LLM agents, yet its trajectory-level reward signal provides only coarse supervision for long-horizon interaction. On-Policy Self-Distillation (OPSD) complements RL by introducing dense token-level guidance from a teacher branch augmented with privileged context. However, transferring OPSD to multi-turn agents proves problematic: compounding multi-turn instability destabilizes supervision, while skill-conditioned privileged guidance requires asymmetric treatment for negative teacher rejections may arise from imperfect skills retrieval or utilization. We introduce SDAR (Self-Distilled Agentic Reinforcement Learning), which treats OPSD as a gated auxiliary objective while keeping RL as the primary optimization backbone. SDAR maps detached token-level signals into a sigmoid gate, strengthening distillation on teacher-endorsed positive-gap tokens and softly attenuating negative teacher rejections. Across the Qwen2.5 and Qwen3 families on ALFWorld, WebShop, and Search-QA, SDAR substantially improves over GRPO (+9.4% on ALFWorld, +7.0% on Search-QA, +10.2% on WebShop-Acc), avoids the instability of naive GRPO+OPSD, and consistently outperforms hybrid RL--OPSD baselines across model scales.