Da Experiência Bruta ao Consumo de Habilidades: Um Estudo Sistemático de Habilidades de Agentes Geradas por Modelo

Resumo

Agentes de linguagem aprimoram-se cada vez mais ao reutilizar habilidades — artefatos processuais estruturados destilados de experiências passadas. Em particular, habilidades em nível de domínio e geradas por modelo são especialmente promissoras. Elas oferecem adaptação rápida dentro de um domínio ao codificar procedimentos recorrentes específicos do domínio e escalam além da elaboração manual intensiva em trabalho. No entanto, enquanto os métodos de extração continuam a proliferar, a compreensão ainda é limitada, sem um estudo abrangente que percorra todo o ciclo de vida das habilidades — geração de experiência, extração de habilidades e consumo de habilidades — para questionar se tais habilidades realmente funcionam, quando funcionam e o que as leva ao sucesso ou fracasso. Para preencher essa lacuna, construímos uma estrutura de avaliação baseada em utilidade que fornece resultados experimentais sistemáticos entre extratores e agentes alvo, abrangendo cinco domínios de tarefas agentivas diversas. Descobrimos que as habilidades geradas por modelo são benéficas em média, mas exibem transferência negativa não trivial, e que nem extratores nem alvos se comportam de maneira uniforme. Um modelo pode ser um extrator forte, mas um consumidor fraco, ou vice-versa, com a utilidade da habilidade independente da escala do modelo ou da força da tarefa de base. Para explicar esses padrões, dissecamos cada estágio do ciclo de vida em profundidade, analisando como a composição da experiência molda a qualidade da habilidade, quais propriedades caracterizam habilidades úteis e como a mesma habilidade é transferida entre diferentes consumidores. Finalmente, traduzimos essas descobertas em uma meta-habilidade concreta que orienta a extração de habilidades para as características ligadas à utilidade real, o que consistentemente melhora a qualidade das habilidades em todos os domínios e reduz substancialmente a transferência negativa.

English

Language agents increasingly improve by reusing skills -- structured procedural artifacts distilled from past experience. In particular, domain-level and model-generated skills are especially promising. They offer fast adaptation within a domain by encoding domain-specific recurring procedures, and they scale beyond labor-intensive hand-crafting. However, while extraction methods continue to proliferate, understanding remains limited, with no comprehensive study spanning the full skill lifecycle -- experience generation, skill extraction, and skill consumption -- to ask whether such skills actually work, when they work, and what makes them succeed or fail. To close this gap, we build a utility-grounded evaluation framework that provides systematic experimental results across extractors and target agents, covering five diverse agentic task domains. We find that model-generated skills are beneficial on average but exhibit non-trivial negative transfer, and that neither extractors nor targets behave uniformly. A model can be a strong extractor yet a weak consumer, or vice versa, with skill utility independent of model scale or baseline task strength. To explain these patterns, we then dissect each lifecycle stage in depth, analyzing how experience composition shapes skill quality, what properties characterize useful skills, and how the same skill transfers across different consumers. Finally, we translate these findings into a concrete meta-skill that guides skill extraction toward the features tied to actual utility, which consistently improves skill quality across domains and substantially reduces negative transfer.