Aprendizagem por Reforço Agêntica Autodestilada

Resumo

A Aprendizagem por Reforço (RL) emergiu como um paradigma central para o pós-treinamento de agentes LLM, mas seu sinal de recompensa no nível de trajetória fornece apenas supervisão grosseira para interações de longo horizonte. A Autodestilação On-Policy (OPSD) complementa a RL ao introduzir orientação densa no nível de token a partir de um ramo professor aumentado com contexto privilegiado. No entanto, transferir OPSD para agentes multi-turno revela-se problemático: a instabilidade composta multi-turno desestabiliza a supervisão, enquanto a orientação privilegiada condicionada a habilidades requer tratamento assimétrico, pois rejeições negativas do professor podem surgir de recuperação ou utilização imperfeita de habilidades. Introduzimos SDAR (Aprendizagem por Reforço Agentiva Autodestilada), que trata OPSD como um objetivo auxiliar com porta, mantendo RL como a espinha dorsal de otimização principal. O SDAR mapeia sinais de token desanexados em uma porta sigmoide, fortalecendo a destilação em tokens com lacuna positiva endossados pelo professor e atenuando suavemente rejeições negativas do professor. Nas famílias Qwen2.5 e Qwen3 em ALFWorld, WebShop e Search-QA, o SDAR melhora substancialmente em relação ao GRPO (+9,4% no ALFWorld, +7,0% no Search-QA, +10,2% no WebShop-Acc), evita a instabilidade do GRPO+OPSD ingênuo e supera consistentemente as linhas de base híbridas de RL-OPSD em diferentes escalas de modelo.

English

Reinforcement learning (RL) has emerged as a central paradigm for post-training LLM agents, yet its trajectory-level reward signal provides only coarse supervision for long-horizon interaction. On-Policy Self-Distillation (OPSD) complements RL by introducing dense token-level guidance from a teacher branch augmented with privileged context. However, transferring OPSD to multi-turn agents proves problematic: compounding multi-turn instability destabilizes supervision, while skill-conditioned privileged guidance requires asymmetric treatment for negative teacher rejections may arise from imperfect skills retrieval or utilization. We introduce SDAR (Self-Distilled Agentic Reinforcement Learning), which treats OPSD as a gated auxiliary objective while keeping RL as the primary optimization backbone. SDAR maps detached token-level signals into a sigmoid gate, strengthening distillation on teacher-endorsed positive-gap tokens and softly attenuating negative teacher rejections. Across the Qwen2.5 and Qwen3 families on ALFWorld, WebShop, and Search-QA, SDAR substantially improves over GRPO (+9.4% on ALFWorld, +7.0% on Search-QA, +10.2% on WebShop-Acc), avoids the instability of naive GRPO+OPSD, and consistently outperforms hybrid RL--OPSD baselines across model scales.