Von der Roherfahrung zum Fähigkeitskonsum: Eine systematische Untersuchung modellgenerierter Agentenfähigkeiten

Zusammenfassung

Sprachagenten verbessern sich zunehmend durch die Wiederverwendung von Fähigkeiten – strukturierte prozedurale Artefakte, die aus vergangenen Erfahrungen destilliert werden. Insbesondere domänenspezifische und modellgenerierte Fähigkeiten sind vielversprechend. Sie ermöglichen eine schnelle Anpassung innerhalb einer Domäne durch die Kodierung domänenspezifischer wiederkehrender Abläufe und skalieren über arbeitsintensive manuelle Erstellung hinaus. Während jedoch Extraktionsmethoden weiterhin zunehmen, bleibt das Verständnis begrenzt, ohne eine umfassende Studie, die den gesamten Fähigkeitslebenszyklus abdeckt – Erfahrungsgenerierung, Fähigkeitsextraktion und Fähigkeitsnutzung –, um zu untersuchen, ob solche Fähigkeiten tatsächlich funktionieren, wann sie funktionieren und was ihren Erfolg oder Misserfolg ausmacht. Um diese Lücke zu schließen, bauen wir ein nutzenorientiertes Bewertungsframework, das systematische experimentelle Ergebnisse über Extraktoren und Zielagenten hinweg liefert und fünf verschiedene aufgabenorientierte Agentendomänen abdeckt. Wir stellen fest, dass modellgenerierte Fähigkeiten im Durchschnitt vorteilhaft sind, aber einen nicht-trivialen negativen Transfer aufweisen, und dass weder Extraktoren noch Zielagenten einheitlich agieren. Ein Modell kann ein starker Extraktor, aber ein schwacher Konsument sein, oder umgekehrt, wobei der Nutzen einer Fähigkeit unabhängig von der Modellgröße oder der Basislinienaufgabenstärke ist. Um diese Muster zu erklären, sezieren wir dann jede Lebenszyklusphase im Detail, analysieren, wie die Erfahrungszusammensetzung die Fähigkeitsqualität prägt, welche Eigenschaften nützliche Fähigkeiten charakterisieren und wie dieselbe Fähigkeit über verschiedene Konsumenten hinweg übertragen wird. Schließlich übersetzen wir diese Erkenntnisse in eine konkrete Meta-Fähigkeit, die die Fähigkeitsextraktion auf die mit dem tatsächlichen Nutzen verbundenen Merkmale lenkt, was die Fähigkeitsqualität durchgängig über Domänen hinweg verbessert und den negativen Transfer erheblich reduziert.

English

Language agents increasingly improve by reusing skills -- structured procedural artifacts distilled from past experience. In particular, domain-level and model-generated skills are especially promising. They offer fast adaptation within a domain by encoding domain-specific recurring procedures, and they scale beyond labor-intensive hand-crafting. However, while extraction methods continue to proliferate, understanding remains limited, with no comprehensive study spanning the full skill lifecycle -- experience generation, skill extraction, and skill consumption -- to ask whether such skills actually work, when they work, and what makes them succeed or fail. To close this gap, we build a utility-grounded evaluation framework that provides systematic experimental results across extractors and target agents, covering five diverse agentic task domains. We find that model-generated skills are beneficial on average but exhibit non-trivial negative transfer, and that neither extractors nor targets behave uniformly. A model can be a strong extractor yet a weak consumer, or vice versa, with skill utility independent of model scale or baseline task strength. To explain these patterns, we then dissect each lifecycle stage in depth, analyzing how experience composition shapes skill quality, what properties characterize useful skills, and how the same skill transfers across different consumers. Finally, we translate these findings into a concrete meta-skill that guides skill extraction toward the features tied to actual utility, which consistently improves skill quality across domains and substantially reduces negative transfer.