Van ruwe ervaring naar vaardigheidsconsumptie: Een systematische studie van modelgegenereerde agentvaardigheden

Samenvatting

Taalagenten verbeteren steeds vaker door het hergebruiken van vaardigheden – gestructureerde procedurele artefacten die uit eerdere ervaringen zijn gedestilleerd. In het bijzonder zijn domeinspecifieke en modelgegenereerde vaardigheden veelbelovend. Ze bieden snelle aanpassing binnen een domein door domeinspecifieke terugkerende procedures te coderen, en ze schalen verder dan arbeidsintensief handwerk. Echter, terwijl extractiemethoden zich blijven vermenigvuldigen, blijft het begrip beperkt, zonder een uitgebreide studie die de volledige levenscyclus van vaardigheden omvat – ervaringsgeneratie, vaardigheidsextractie en vaardigheidsconsumptie – om te onderzoeken of dergelijke vaardigheden daadwerkelijk werken, wanneer ze werken en wat hun succes of falen bepaalt. Om deze leemte te vullen, bouwen we een utiliteitsgericht evaluatiekader dat systematische experimentele resultaten oplevert voor verschillende extractoren en doelagenten, verspreid over vijf uiteenlopende agentische taakdomeinen. We vinden dat modelgegenereerde vaardigheden gemiddeld genomen voordelig zijn, maar niet-triviale negatieve transfer vertonen, en dat noch extractoren noch doelwitten uniform gedrag vertonen. Een model kan een sterke extractor zijn maar een zwakke consument, of vice versa, waarbij de utiliteit van vaardigheden onafhankelijk is van modelschaal of basistaaksterkte. Om deze patronen te verklaren, analyseren we vervolgens elke levenscyclusfase diepgaand, waarbij we onderzoeken hoe de samenstelling van ervaringen de vaardigheidskwaliteit beïnvloedt, welke eigenschappen nuttige vaardigheden kenmerken en hoe dezelfde vaardigheid wordt overgedragen tussen verschillende consumenten. Ten slotte vertalen we deze bevindingen naar een concrete meta-vaardigheid die de vaardigheidsextractie stuurt naar de kenmerken die aan de daadwerkelijke utiliteit zijn gekoppeld, wat de vaardigheidskwaliteit consistent verbetert over domeinen heen en negatieve transfer aanzienlijk vermindert.

English

Language agents increasingly improve by reusing skills -- structured procedural artifacts distilled from past experience. In particular, domain-level and model-generated skills are especially promising. They offer fast adaptation within a domain by encoding domain-specific recurring procedures, and they scale beyond labor-intensive hand-crafting. However, while extraction methods continue to proliferate, understanding remains limited, with no comprehensive study spanning the full skill lifecycle -- experience generation, skill extraction, and skill consumption -- to ask whether such skills actually work, when they work, and what makes them succeed or fail. To close this gap, we build a utility-grounded evaluation framework that provides systematic experimental results across extractors and target agents, covering five diverse agentic task domains. We find that model-generated skills are beneficial on average but exhibit non-trivial negative transfer, and that neither extractors nor targets behave uniformly. A model can be a strong extractor yet a weak consumer, or vice versa, with skill utility independent of model scale or baseline task strength. To explain these patterns, we then dissect each lifecycle stage in depth, analyzing how experience composition shapes skill quality, what properties characterize useful skills, and how the same skill transfers across different consumers. Finally, we translate these findings into a concrete meta-skill that guides skill extraction toward the features tied to actual utility, which consistently improves skill quality across domains and substantially reduces negative transfer.