НАВЫК0: Контекстное Агентное Обучение с Подкреплением для Интернализации Навыков

Аннотация

Навыки агентов — структурированные наборы процедурных знаний и исполняемых ресурсов, которые агенты динамически загружают во время вывода — стали надежным механизмом расширения возможностей LLM-агентов. Однако расширение навыков на этапе вывода имеет принципиальные ограничения: шум при поиске вносит нерелевантные указания, внедряемое содержание навыков создает значительную токенную нагрузку, а модель так и не усваивает знания, которые она лишь пассивно использует. Мы задаемся вопросом: можно ли навыки вместо этого интериоризировать в параметры модели, обеспечивая полностью нулевое автономное поведение без необходимости поиска навыков во время выполнения? Представляем SKILL0 — контекстную框架 обучения с подкреплением, разработанную для интериоризации навыков. SKILL0 использует учебный план, который начинается с полного контекста навыков и постепенно его сокращает. Навыки оффлайн группируются по категориям и преобразуются вместе с историей взаимодействий в компактный визуальный контекст, обучая модель использованию инструментов и выполнению многошаговых задач. Динамический учебный план оценивает полезность каждого файла навыков в рамках текущей политики, сохраняя только те, которые еще приносят пользу в условиях линейно уменьшаемого бюджета, пока агент не начинает работать в полностью нулевом режиме. Многочисленные эксперименты показывают, что SKILL0 обеспечивает существенное улучшение по сравнению со стандартным базовым RL (+9,7% для ALFWorld и +6,6% для Search-QA), сохраняя при этом высокоэффективный контекст менее 0,5 тыс. токенов на шаг. Наш код доступен по адресу https://github.com/ZJU-REAL/SkillZero.

English

Agent skills, structured packages of procedural knowledge and executable resources that agents dynamically load at inference time, have become a reliable mechanism for augmenting LLM agents. Yet inference-time skill augmentation is fundamentally limited: retrieval noise introduces irrelevant guidance, injected skill content imposes substantial token overhead, and the model never truly acquires the knowledge it merely follows. We ask whether skills can instead be internalized into model parameters, enabling zero-shot autonomous behavior without any runtime skill retrieval. We introduce SKILL0, an in-context reinforcement learning framework designed for skill internalization. SKILL0 introduces a training-time curriculum that begins with full skill context and progressively withdraws it. Skills are grouped offline by category and rendered with interaction history into a compact visual context, teaching he model tool invocation and multi-turn task completion. A Dynamic Curriculum then evaluates each skill file's on-policy helpfulness, retaining only those from which the current policy still benefits within a linearly decaying budget, until the agent operates in a fully zero-shot setting. Extensive agentic experiments demonstrate that SKILL0 achieves substantial improvements over the standard RL baseline (+9.7\% for ALFWorld and +6.6\% for Search-QA), while maintaining a highly efficient context of fewer than 0.5k tokens per step. Our code is available at https://github.com/ZJU-REAL/SkillZero.

НАВЫК0: Контекстное Агентное Обучение с Подкреплением для Интернализации Навыков

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Аннотация

Support