Aprendizaje por Refuerzo Agéntico Autodestilado

Resumen

El aprendizaje por refuerzo (RL, por sus siglas en inglés) ha surgido como un paradigma central para el post-entrenamiento de agentes LLM, aunque su señal de recompensa a nivel de trayectoria proporciona una supervisión únicamente gruesa para interacciones de horizonte largo. La autodestilación en política (OPSD, por sus siglas en inglés) complementa al RL introduciendo una guía densa a nivel de tokens desde una rama profesora aumentada con contexto privilegiado. Sin embargo, transferir OPSD a agentes de múltiples turnos resulta problemático: la inestabilidad compuesta de múltiples turnos desestabiliza la supervisión, mientras que la guía privilegiada condicionada por habilidades requiere un tratamiento asimétrico, ya que los rechazos negativos del profesor pueden surgir de una recuperación o utilización imperfecta de habilidades. Presentamos SDAR (Aprendizaje por Refuerzo Agéntico Autodestilado), que trata a OPSD como un objetivo auxiliar con compuerta, manteniendo a RL como la columna vertebral principal de optimización. SDAR mapea señales separadas a nivel de tokens en una compuerta sigmoidea, fortaleciendo la destilación en tokens con brecha positiva respaldados por el profesor y atenuando suavemente los rechazos negativos del profesor. En las familias Qwen2.5 y Qwen3 en ALFWorld, WebShop y Search-QA, SDAR mejora sustancialmente en comparación con GRPO (+9.4% en ALFWorld, +7.0% en Search-QA, +10.2% en WebShop-Acc), evita la inestabilidad de la combinación ingenua de GRPO+OPSD, y supera consistentemente a las líneas base híbridas de RL-OPSD en diferentes escalas de modelos.

English

Reinforcement learning (RL) has emerged as a central paradigm for post-training LLM agents, yet its trajectory-level reward signal provides only coarse supervision for long-horizon interaction. On-Policy Self-Distillation (OPSD) complements RL by introducing dense token-level guidance from a teacher branch augmented with privileged context. However, transferring OPSD to multi-turn agents proves problematic: compounding multi-turn instability destabilizes supervision, while skill-conditioned privileged guidance requires asymmetric treatment for negative teacher rejections may arise from imperfect skills retrieval or utilization. We introduce SDAR (Self-Distilled Agentic Reinforcement Learning), which treats OPSD as a gated auxiliary objective while keeping RL as the primary optimization backbone. SDAR maps detached token-level signals into a sigmoid gate, strengthening distillation on teacher-endorsed positive-gap tokens and softly attenuating negative teacher rejections. Across the Qwen2.5 and Qwen3 families on ALFWorld, WebShop, and Search-QA, SDAR substantially improves over GRPO (+9.4% on ALFWorld, +7.0% on Search-QA, +10.2% on WebShop-Acc), avoids the instability of naive GRPO+OPSD, and consistently outperforms hybrid RL--OPSD baselines across model scales.