Aproveitando Agentes LLM com Programas de Habilidades

Resumo

Equipar agentes de LLM com habilidades reutilizáveis derivadas de experiências passadas tornou-se uma abordagem popular e bem-sucedida para lidar com tarefas complexas e de longo horizonte. No entanto, essas lições são frequentemente codificadas como orientações textuais que permanecem em grande parte consultivas, carecendo de mecanismos explícitos sobre quando e como intervir no loop do agente. Para preencher essa lacuna, apresentamos o HASP (Harnessing LLM Agents with Skill Programs), um novo framework que atualiza habilidades em Funções de Programa (PFs) executáveis. Em vez de oferecer conselhos passivos, as PFs atuam como diretrizes executáveis que ativam em estados propensos a falhas e modificam a próxima ação ou injetam contexto corretivo. O HASP é altamente modular: pode ser aplicado em tempo de inferência para intervenção direta no loop do agente, durante o pós-treinamento para fornecer supervisão estruturada, ou para autoaperfeiçoamento ao evoluir PFs validadas e revisadas por professores. Empiricamente, o HASP gera ganhos substanciais em comparação com métodos livres de treinamento e baseados em treinamento em tarefas de busca na web, raciocínio matemático e codificação. Por exemplo, no raciocínio de busca na web, as PFs em tempo de inferência sozinhas melhoram o desempenho médio em 25% em comparação com o Agente ReAct (multi-loop), enquanto o pós-treinamento e a evolução controlada alcançam um ganho de 30,4% sobre o Search-R1. Para fornecer insights mais profundos sobre o HASP, nossa análise de mecanismo revela como as PFs disparam e intervêm, como as habilidades são internalizadas e a necessidade de uma evolução estável da biblioteca de habilidades.

English

Equipping LLM agents with reusable skills derived from past experience has become a popular and successful approach for tackling complex and long-horizon tasks. However, such lessons are often encoded as textual guidance that remains largely advisory, lacking explicit mechanisms for when and how to intervene in the agent loop. To bridge the gap, we introduce HASP(Harnessing LLM Agents with Skill Programs), a new framework that upgrades skills into executable Program Functions (PFs). Rather than offering passive advice, PFs act as executable guardrails that activate on failure-prone states and modify the next action or inject corrective context. HASP is highly modular: it can be applied at inference time for direct agent-loop intervention, during post-training to provide structured supervision, or for self-improvement by evolving validated, teacher-reviewed PFs. Empirically, HASP drives substantial gains compared to both training-free and training-based methods on web-search, math reasoning, and coding tasks. For example, on web-search reasoning, inference-time PFs alone improve the average performance by 25% compared to (multi-loop) ReAct Agent, while post-training and controlled evolution achieve a 30.4% gain over Search-R1. To provide deeper insights into HASP, our mechanism analysis reveals how PFs trigger and intervene, how skills are internalized, and the requirement for stable skill library evolution.