Nutzung von LLM-Agenten mit Skill-Programmen

Zusammenfassung

Die Ausstattung von LLM-Agenten mit wiederverwendbaren Fähigkeiten aus vergangenen Erfahrungen hat sich zu einem populären und erfolgreichen Ansatz für die Bewältigung komplexer und langfristiger Aufgaben entwickelt. Allerdings werden diese Erkenntnisse oft als textuelle Anleitungen kodiert, die weitgehend beratend bleiben und keine expliziten Mechanismen dafür bieten, wann und wie in die Agentenschleife eingegriffen werden soll. Um diese Lücke zu schließen, stellen wir HASP (Harnessing LLM Agents with Skill Programs) vor, ein neues Framework, das Fähigkeiten in ausführbare Programmfunktionen (PFs) aufwertet. Anstatt passive Ratschläge zu geben, fungieren PFs als ausführbare Leitplanken, die bei fehleranfälligen Zuständen aktiviert werden und entweder die nächste Aktion modifizieren oder korrigierenden Kontext einfügen. HASP ist hochgradig modular: Es kann zur Inferenzzeit für direkte Eingriffe in die Agentenschleife, während des Post-Trainings zur Bereitstellung strukturierter Überwachung oder zur Selbstverbesserung durch die Weiterentwicklung validierter, von Lehrkräften überprüfter PFs eingesetzt werden. Empirisch erzielt HASP im Vergleich zu sowohl trainingsfreien als auch trainingsbasierten Methoden bei Web-Suche, mathematischem Denken und Programmieraufgaben erhebliche Verbesserungen. Beispielsweise verbessern allein die PFs zur Inferenzzeit die durchschnittliche Leistung um 25 % im Vergleich zum (Multi-Loop) ReAct Agenten, während Post-Training und kontrollierte Evolution einen Gewinn von 30,4 % gegenüber Search-R1 erzielen. Um tiefere Einblicke in HASP zu geben, zeigt unsere Mechanismusanalyse, wie PFs ausgelöst werden und eingreifen, wie Fähigkeiten verinnerlicht werden und welche Anforderungen an eine stabile Weiterentwicklung der Fähigkeitsbibliothek bestehen.

English

Equipping LLM agents with reusable skills derived from past experience has become a popular and successful approach for tackling complex and long-horizon tasks. However, such lessons are often encoded as textual guidance that remains largely advisory, lacking explicit mechanisms for when and how to intervene in the agent loop. To bridge the gap, we introduce HASP(Harnessing LLM Agents with Skill Programs), a new framework that upgrades skills into executable Program Functions (PFs). Rather than offering passive advice, PFs act as executable guardrails that activate on failure-prone states and modify the next action or inject corrective context. HASP is highly modular: it can be applied at inference time for direct agent-loop intervention, during post-training to provide structured supervision, or for self-improvement by evolving validated, teacher-reviewed PFs. Empirically, HASP drives substantial gains compared to both training-free and training-based methods on web-search, math reasoning, and coding tasks. For example, on web-search reasoning, inference-time PFs alone improve the average performance by 25% compared to (multi-loop) ReAct Agent, while post-training and controlled evolution achieve a 30.4% gain over Search-R1. To provide deeper insights into HASP, our mechanism analysis reveals how PFs trigger and intervene, how skills are internalized, and the requirement for stable skill library evolution.