De l'expérience brute à la consommation de compétences : une étude systématique des compétences d'agent générées par modèle

Résumé

Les agents linguistiques améliorent de plus en plus leur performance en réutilisant des compétences – des artefacts procéduraux structurés distillés à partir de l'expérience passée. En particulier, les compétences au niveau du domaine et celles générées par un modèle sont particulièrement prometteuses. Elles permettent une adaptation rapide au sein d'un domaine en codifiant des procédures récurrentes spécifiques à celui-ci, et elles passent à l'échelle au-delà de l'artisanat intensif en main-d'œuvre. Cependant, alors que les méthodes d'extraction continuent de se multiplier, la compréhension reste limitée, sans étude exhaustive couvrant l'ensemble du cycle de vie des compétences – génération d'expérience, extraction de compétences et consommation de compétences – pour se demander si ces compétences fonctionnent réellement, quand elles fonctionnent, et ce qui les rend efficaces ou non. Pour combler cette lacune, nous construisons un cadre d'évaluation ancré dans l'utilité qui fournit des résultats expérimentaux systématiques à travers différents extracteurs et agents cibles, couvrant cinq domaines de tâches agentiques variés. Nous constatons que les compétences générées par un modèle sont bénéfiques en moyenne, mais présentent un transfert négatif non négligeable, et que ni les extracteurs ni les cibles ne se comportent de manière uniforme. Un modèle peut être un extracteur performant mais un consommateur faible, ou vice versa, avec une utilité des compétences indépendante de l'échelle du modèle ou de la force de base de la tâche. Pour expliquer ces schémas, nous disséquons ensuite chaque étape du cycle de vie en profondeur, en analysant comment la composition de l'expérience façonne la qualité des compétences, quelles propriétés caractérisent les compétences utiles, et comment une même compétence se transfère entre différents consommateurs. Enfin, nous traduisons ces résultats en une méta-compétence concrète qui guide l'extraction des compétences vers les caractéristiques liées à l'utilité réelle, ce qui améliore systématiquement la qualité des compétences dans tous les domaines et réduit considérablement le transfert négatif.

English

Language agents increasingly improve by reusing skills -- structured procedural artifacts distilled from past experience. In particular, domain-level and model-generated skills are especially promising. They offer fast adaptation within a domain by encoding domain-specific recurring procedures, and they scale beyond labor-intensive hand-crafting. However, while extraction methods continue to proliferate, understanding remains limited, with no comprehensive study spanning the full skill lifecycle -- experience generation, skill extraction, and skill consumption -- to ask whether such skills actually work, when they work, and what makes them succeed or fail. To close this gap, we build a utility-grounded evaluation framework that provides systematic experimental results across extractors and target agents, covering five diverse agentic task domains. We find that model-generated skills are beneficial on average but exhibit non-trivial negative transfer, and that neither extractors nor targets behave uniformly. A model can be a strong extractor yet a weak consumer, or vice versa, with skill utility independent of model scale or baseline task strength. To explain these patterns, we then dissect each lifecycle stage in depth, analyzing how experience composition shapes skill quality, what properties characterize useful skills, and how the same skill transfers across different consumers. Finally, we translate these findings into a concrete meta-skill that guides skill extraction toward the features tied to actual utility, which consistently improves skill quality across domains and substantially reduces negative transfer.