Exploiter les agents LLM avec des programmes de compétences

Résumé

Doter les agents LLM de compétences réutilisables issues de l'expérience passée est devenu une approche populaire et efficace pour traiter des tâches complexes et à long horizon. Cependant, ces enseignements sont souvent encodés sous forme de directives textuelles qui restent largement consultatives, sans mécanismes explicites pour déterminer quand et comment intervenir dans la boucle de l'agent. Pour combler cette lacune, nous présentons HASP (Harnessing LLM Agents with Skill Programs), un nouveau cadre qui fait évoluer les compétences en fonctions de programme exécutables (PFs). Au lieu de fournir des conseils passifs, les PFs agissent comme des garde-fous exécutables qui s'activent sur des états sujets aux échecs et modifient l'action suivante ou injectent un contexte correctif. HASP est hautement modulaire : il peut être appliqué au moment de l'inférence pour une intervention directe dans la boucle de l'agent, lors du post-entraînement pour fournir une supervision structurée, ou pour l'auto-amélioration en faisant évoluer des PFs validés et révisés par un enseignant. Empiriquement, HASP génère des gains substantiels par rapport aux méthodes sans entraînement et avec entraînement sur des tâches de recherche web, de raisonnement mathématique et de codage. Par exemple, sur le raisonnement en recherche web, les PFs utilisés à l'inférence améliorent seuls la performance moyenne de 25 % par rapport à l'agent ReAct (à boucles multiples), tandis que le post-entraînement et l'évolution contrôlée atteignent un gain de 30,4 % par rapport à Search-R1. Pour fournir des aperçus plus approfondis de HASP, notre analyse des mécanismes révèle comment les PFs se déclenchent et interviennent, comment les compétences sont internalisées, et l'exigence d'une évolution stable de la bibliothèque de compétences.

English

Equipping LLM agents with reusable skills derived from past experience has become a popular and successful approach for tackling complex and long-horizon tasks. However, such lessons are often encoded as textual guidance that remains largely advisory, lacking explicit mechanisms for when and how to intervene in the agent loop. To bridge the gap, we introduce HASP(Harnessing LLM Agents with Skill Programs), a new framework that upgrades skills into executable Program Functions (PFs). Rather than offering passive advice, PFs act as executable guardrails that activate on failure-prone states and modify the next action or inject corrective context. HASP is highly modular: it can be applied at inference time for direct agent-loop intervention, during post-training to provide structured supervision, or for self-improvement by evolving validated, teacher-reviewed PFs. Empirically, HASP drives substantial gains compared to both training-free and training-based methods on web-search, math reasoning, and coding tasks. For example, on web-search reasoning, inference-time PFs alone improve the average performance by 25% compared to (multi-loop) ReAct Agent, while post-training and controlled evolution achieve a 30.4% gain over Search-R1. To provide deeper insights into HASP, our mechanism analysis reveals how PFs trigger and intervene, how skills are internalized, and the requirement for stable skill library evolution.