Самодистиллированное агентное обучение с подкреплением

Аннотация

Обучение с подкреплением (RL) стало центральной парадигмой для пост-обучения LLM-агентов, однако его сигнал вознаграждения на уровне траекторий обеспечивает лишь грубое управление для взаимодействия на длинных горизонтах. Обучение с самодистилляцией на политике (OPSD) дополняет RL, вводя плотное управление на уровне токенов от ветви учителя, дополненной привилегированным контекстом. Однако перенос OPSD на многошаговые агенты оказывается проблематичным: накопление нестабильности многошагового взаимодействия дестабилизирует управление, в то время как привилегированное управление, обусловленное навыками, требует асимметричного подхода, поскольку негативные реакции учителя могут возникать из-за несовершенного извлечения или использования навыков. Мы представляем SDAR (самодистиллированное агентное обучение с подкреплением), которое рассматривает OPSD как управляемую вспомогательную цель, сохраняя RL в качестве основного оптимизационного ядра. SDAR отображает отделенные сигналы на уровне токенов в сигмоидный затвор, усиливая дистилляцию на одобренных учителем токенах с положительным разрывом и мягко ослабляя негативные реакции учителя. На семействах Qwen2.5 и Qwen3 в тестах ALFWorld, WebShop и Search-QA SDAR значительно превосходит GRPO (+9.4% на ALFWorld, +7.0% на Search-QA, +10.2% на WebShop-Acc), избегает нестабильности наивного GRPO+OPSD и последовательно превосходит гибридные базовые линии RL–OPSD на всех масштабах моделей.

English

Reinforcement learning (RL) has emerged as a central paradigm for post-training LLM agents, yet its trajectory-level reward signal provides only coarse supervision for long-horizon interaction. On-Policy Self-Distillation (OPSD) complements RL by introducing dense token-level guidance from a teacher branch augmented with privileged context. However, transferring OPSD to multi-turn agents proves problematic: compounding multi-turn instability destabilizes supervision, while skill-conditioned privileged guidance requires asymmetric treatment for negative teacher rejections may arise from imperfect skills retrieval or utilization. We introduce SDAR (Self-Distilled Agentic Reinforcement Learning), which treats OPSD as a gated auxiliary objective while keeping RL as the primary optimization backbone. SDAR maps detached token-level signals into a sigmoid gate, strengthening distillation on teacher-endorsed positive-gap tokens and softly attenuating negative teacher rejections. Across the Qwen2.5 and Qwen3 families on ALFWorld, WebShop, and Search-QA, SDAR substantially improves over GRPO (+9.4% on ALFWorld, +7.0% on Search-QA, +10.2% on WebShop-Acc), avoids the instability of naive GRPO+OPSD, and consistently outperforms hybrid RL--OPSD baselines across model scales.