Использование агентов LLM с помощью программ навыков

Аннотация

Оснащение LLM-агентов повторно используемыми навыками, полученными из прошлого опыта, стало популярным и успешным подходом для решения сложных и долгосрочных задач. Однако такие уроки часто кодируются в виде текстовых инструкций, которые остаются в значительной степени рекомендательными, не имея явных механизмов для определения того, когда и как вмешиваться в цикл работы агента. Чтобы устранить этот разрыв, мы представляем HASP (Harnessing LLM Agents with Skill Programs) — новую платформу, которая преобразует навыки в исполняемые программные функции (Program Functions, PFs). Вместо пассивных рекомендаций PFs действуют как исполняемые предохранительные механизмы, которые активируются в состояниях, склонных к сбоям, и изменяют следующее действие или внедряют корректирующий контекст. HASP отличается высокой модульностью: его можно применять на этапе инференса для прямого вмешательства в цикл агента, во время пост-тренировки для обеспечения структурированного контроля или для самоулучшения путем эволюции проверенных и одобренных преподавателем PFs. Эмпирически HASP обеспечивает значительные улучшения по сравнению как с методами без обучения, так и с методами, основанными на обучении, в задачах веб-поиска, математических рассуждений и программирования. Например, в задаче рассуждений на основе веб-поиска одни только PFs на этапе инференса повышают среднюю производительность на 25% по сравнению с (многоконтурным) агентом ReAct, в то время как пост-тренировка и контролируемая эволюция достигают прироста в 30,4% по сравнению с Search-R1. Чтобы дать более глубокое понимание HASP, наш анализ механизмов показывает, как PFs запускаются и вмешиваются, как навыки интернализируются, и требования для стабильной эволюции библиотеки навыков.

English

Equipping LLM agents with reusable skills derived from past experience has become a popular and successful approach for tackling complex and long-horizon tasks. However, such lessons are often encoded as textual guidance that remains largely advisory, lacking explicit mechanisms for when and how to intervene in the agent loop. To bridge the gap, we introduce HASP(Harnessing LLM Agents with Skill Programs), a new framework that upgrades skills into executable Program Functions (PFs). Rather than offering passive advice, PFs act as executable guardrails that activate on failure-prone states and modify the next action or inject corrective context. HASP is highly modular: it can be applied at inference time for direct agent-loop intervention, during post-training to provide structured supervision, or for self-improvement by evolving validated, teacher-reviewed PFs. Empirically, HASP drives substantial gains compared to both training-free and training-based methods on web-search, math reasoning, and coding tasks. For example, on web-search reasoning, inference-time PFs alone improve the average performance by 25% compared to (multi-loop) ReAct Agent, while post-training and controlled evolution achieve a 30.4% gain over Search-R1. To provide deeper insights into HASP, our mechanism analysis reveals how PFs trigger and intervene, how skills are internalized, and the requirement for stable skill library evolution.