LLM-agenten benutten met vaardigheidsprogramma's

Samenvatting

Het uitrusten van LLM-agenten met herbruikbare vaardigheden die zijn afgeleid van eerdere ervaringen is een populaire en succesvolle aanpak geworden voor het aanpakken van complexe en langdurige taken. Dergelijke lessen worden echter vaak gecodeerd als tekstuele aanwijzingen die grotendeels adviserend blijven, zonder expliciete mechanismen voor wanneer en hoe in te grijpen in de agent-lus. Om deze kloof te overbruggen, introduceren we HASP (Harnessing LLM Agents with Skill Programs), een nieuw raamwerk dat vaardigheden opwaardeert naar uitvoerbare Programmafuncties (PF's). In plaats van passief advies te geven, fungeren PF's als uitvoerbare vangrails die worden geactiveerd bij foutgevoelige toestanden en de volgende actie aanpassen of corrigerende context injecteren. HASP is zeer modulair: het kan worden toegepast tijdens inferentie voor directe interventie in de agent-lus, tijdens nabehandeling om gestructureerd toezicht te bieden, of voor zelfverbetering door het evolueren van gevalideerde, door een docent beoordeelde PF's. Empirisch gezien levert HASP aanzienlijke winst op in vergelijking met zowel trainingsvrije als trainingsgebaseerde methoden bij webzoekopdrachten, wiskundig redeneren en codeertaken. Op het gebied van webzoekredeneren verbeteren PF's tijdens inferentie alleen al de gemiddelde prestaties met 25% vergeleken met (multi-loop) ReAct Agent, terwijl nabehandeling en gecontroleerde evolutie een winst van 30,4% behalen ten opzichte van Search-R1. Om diepere inzichten te verschaffen in HASP, onthult onze mechanismeanalyse hoe PF's worden geactiveerd en ingrijpen, hoe vaardigheden worden geïnternaliseerd, en de vereiste voor een stabiele evolutie van de vaardighedenbibliotheek.

English

Equipping LLM agents with reusable skills derived from past experience has become a popular and successful approach for tackling complex and long-horizon tasks. However, such lessons are often encoded as textual guidance that remains largely advisory, lacking explicit mechanisms for when and how to intervene in the agent loop. To bridge the gap, we introduce HASP(Harnessing LLM Agents with Skill Programs), a new framework that upgrades skills into executable Program Functions (PFs). Rather than offering passive advice, PFs act as executable guardrails that activate on failure-prone states and modify the next action or inject corrective context. HASP is highly modular: it can be applied at inference time for direct agent-loop intervention, during post-training to provide structured supervision, or for self-improvement by evolving validated, teacher-reviewed PFs. Empirically, HASP drives substantial gains compared to both training-free and training-based methods on web-search, math reasoning, and coding tasks. For example, on web-search reasoning, inference-time PFs alone improve the average performance by 25% compared to (multi-loop) ReAct Agent, while post-training and controlled evolution achieve a 30.4% gain over Search-R1. To provide deeper insights into HASP, our mechanism analysis reveals how PFs trigger and intervene, how skills are internalized, and the requirement for stable skill library evolution.