Aprovechando agentes LLM con programas de habilidades

Resumen

Dotar a los agentes LLM de habilidades reutilizables derivadas de la experiencia previa se ha convertido en un enfoque popular y exitoso para abordar tareas complejas y de largo horizonte. Sin embargo, dichas lecciones suelen codificarse como guía textual que sigue siendo en gran medida asesorativa, careciendo de mecanismos explícitos que indiquen cuándo y cómo intervenir en el bucle del agente. Para cerrar esta brecha, presentamos HASP (Harnessing LLM Agents with Skill Programs), un nuevo marco que transforma las habilidades en Funciones de Programa (PF, por sus siglas en inglés) ejecutables. En lugar de ofrecer consejos pasivos, las PF actúan como barreras de seguridad ejecutables que se activan en estados propensos a fallos, modificando la siguiente acción o inyectando contexto correctivo. HASP es altamente modular: puede aplicarse en tiempo de inferencia para una intervención directa en el bucle del agente, durante el post-entrenamiento para proporcionar supervisión estructurada, o para la automejora mediante la evolución de PF validadas y revisadas por un profesor. Empíricamente, HASP genera mejoras sustanciales en comparación con métodos tanto sin entrenamiento como basados en entrenamiento en tareas de búsqueda web, razonamiento matemático y codificación. Por ejemplo, en el razonamiento de búsqueda web, las PF solo en tiempo de inferencia mejoran el rendimiento promedio en un 25% en comparación con el Agente ReAct (de múltiples bucles), mientras que el post-entrenamiento y la evolución controlada logran una ganancia del 30.4% sobre Search-R1. Para proporcionar una comprensión más profunda de HASP, nuestro análisis de mecanismos revela cómo las PF se activan e intervienen, cómo se interiorizan las habilidades y el requisito de una evolución estable de la biblioteca de habilidades.

English

Equipping LLM agents with reusable skills derived from past experience has become a popular and successful approach for tackling complex and long-horizon tasks. However, such lessons are often encoded as textual guidance that remains largely advisory, lacking explicit mechanisms for when and how to intervene in the agent loop. To bridge the gap, we introduce HASP(Harnessing LLM Agents with Skill Programs), a new framework that upgrades skills into executable Program Functions (PFs). Rather than offering passive advice, PFs act as executable guardrails that activate on failure-prone states and modify the next action or inject corrective context. HASP is highly modular: it can be applied at inference time for direct agent-loop intervention, during post-training to provide structured supervision, or for self-improvement by evolving validated, teacher-reviewed PFs. Empirically, HASP drives substantial gains compared to both training-free and training-based methods on web-search, math reasoning, and coding tasks. For example, on web-search reasoning, inference-time PFs alone improve the average performance by 25% compared to (multi-loop) ReAct Agent, while post-training and controlled evolution achieve a 30.4% gain over Search-R1. To provide deeper insights into HASP, our mechanism analysis reveals how PFs trigger and intervene, how skills are internalized, and the requirement for stable skill library evolution.