スキルプログラムを用いたLLMエージェントの活用
Harnessing LLM Agents with Skill Programs
May 18, 2026
著者: Hongjun Liu, Yifei Ming, Shafiq Joty, Chen Zhao
cs.AI
要旨
LLMエージェントに過去の経験から得た再利用可能なスキルを装備することは、複雑で長期的なタスクに取り組むための一般的で成功したアプローチとなっている。しかし、こうした教訓は多くの場合、主として助言的なテキストによるガイダンスとして符号化され、エージェントループにいつどのように介入すべきかについての明示的なメカニズムを欠いている。このギャップを埋めるために、我々はHASP(Harnessing LLM Agents with Skill Programs)という新しいフレームワークを導入する。これはスキルを実行可能なプログラム関数(PF)へと昇格させるものである。受動的なアドバイスを提供するのではなく、PFは実行可能なガードレールとして機能し、失敗しやすい状態で作動して次のアクションを修正したり、修正コンテキストを注入したりする。HASPは高度にモジュール化されており、推論時にエージェントループへの直接介入のために、事後学習中に構造化された監督を提供するために、または検証済みで教師によるレビューを受けたPFを進化させることで自己改善のために適用できる。実験的に、HASPはWeb検索、数学的推論、コーディングタスクにおいて、訓練不要および訓練ベースの手法の両方と比較して大幅な改善をもたらす。例えば、Web検索推論では、推論時のPFのみで(マルチループ)ReActエージェントと比較して平均性能が25%向上し、一方、事後学習と制御された進化によりSearch-R1と比較して30.4%の向上を達成する。HASPに関するより深い洞察を提供するために、我々のメカニズム分析は、PFがどのようにトリガーされ介入するか、スキルがどのように内面化されるか、そして安定したスキルライブラリの進化の要件を明らかにする。
English
Equipping LLM agents with reusable skills derived from past experience has become a popular and successful approach for tackling complex and long-horizon tasks. However, such lessons are often encoded as textual guidance that remains largely advisory, lacking explicit mechanisms for when and how to intervene in the agent loop. To bridge the gap, we introduce HASP(Harnessing LLM Agents with Skill Programs), a new framework that upgrades skills into executable Program Functions (PFs). Rather than offering passive advice, PFs act as executable guardrails that activate on failure-prone states and modify the next action or inject corrective context. HASP is highly modular: it can be applied at inference time for direct agent-loop intervention, during post-training to provide structured supervision, or for self-improvement by evolving validated, teacher-reviewed PFs. Empirically, HASP drives substantial gains compared to both training-free and training-based methods on web-search, math reasoning, and coding tasks. For example, on web-search reasoning, inference-time PFs alone improve the average performance by 25% compared to (multi-loop) ReAct Agent, while post-training and controlled evolution achieve a 30.4% gain over Search-R1. To provide deeper insights into HASP, our mechanism analysis reveals how PFs trigger and intervene, how skills are internalized, and the requirement for stable skill library evolution.