Skill0.5: Совместная интернализация и использование навыков для обобщения вне распределения в агентном обучении с подкреплением

Аннотация

Оснащение больших языковых моделей явными навыками становится перспективной парадигмой для создания автономных агентов, способных решать сложные задачи. Навыки агента можно разделить на общие навыки, обеспечивающие широкий когнитивный перенос, и специфические навыки, необходимые для динамического выполнения конкретных задач. Однако существующие методы обучения с подкреплением на основе навыков (RL) обычно навязывают жесткий выбор между полной экстернализацией, которая влечет за собой непомерные накладные расходы на контекст, и полной интернализацией, что сопряжено с риском переобучения и конфликта знаний. Для решения этой дилеммы мы предлагаем Skill0.5 — новую агентную RL-структуру, которая явно разграничивает подходы к обработке навыков, сочетая интернализацию общих навыков с использованием специфических навыков для конкретных задач. Управляемый динамическим маршрутизатором, учитывающим сложность, Skill0.5 распределяет задачи по различным уровням мастерства для применения адаптированных стратегий оптимизации: он интернализирует общие навыки с помощью привилегированной дистилляции для создания когнитивной основы для сложных задач, а для легких задач использует диагностическое зондирование для предотвращения использования shortcuts и обеспечения применения специфических навыков. Эксперименты на ALFWorld и WebShop показывают, что Skill0.5 превосходит как методы RL, основанные на памяти, так и методы, основанные на навыках, обеспечивая улучшение производительности как в сценариях, соответствующих распределению обучающих данных, так и вне его.

English

Equipping large language models with explicit skills has emerged as a promising paradigm for enabling autonomous agents to solve complex tasks. Agent skills can be inherently divided into general skills for broad cognitive transfer and task-specific skills for dynamic execution. However, existing skill-based reinforcement learning (RL) methods typically force a rigid choice between full externalization, which incurs prohibitive context overhead, and full internalization, which risks overfitting and knowledge conflicts. To address this dilemma, we propose Skill0.5, a novel agentic RL framework that explicitly differentiates skill treatments by combining general skill internalization with task-specific skill utilization. Driven by a dynamic, difficulty-aware router, Skill0.5 streams tasks into distinct mastery tiers to apply tailored optimization strategies: it internalizes general skills via privileged distillation to build a cognitive foundation for hard tasks, while using diagnostic probing on easy tasks to penalize shortcuts and enforce specific skill utilization. Experiments on ALFWorld and WebShop demonstrate that Skill0.5 outperforms both memory-based and skill-based RL baselines, yielding performance improvements across both in-distribution and out-of-distribution scenarios.