De la experiencia en bruto al consumo de habilidades: un estudio sistemático de habilidades de agentes generadas por modelos

Resumen

Los agentes lingüísticos mejoran cada vez más mediante la reutilización de habilidades — artefactos procedimentales estructurados destilados a partir de la experiencia previa. En particular, las habilidades a nivel de dominio y generadas por modelos resultan especialmente prometedoras. Ofrecen una rápida adaptación dentro de un dominio al codificar procedimientos recurrentes específicos, y escalan más allá de la elaboración manual que requiere mucho trabajo. Sin embargo, aunque los métodos de extracción continúan proliferando, la comprensión sigue siendo limitada, sin un estudio exhaustivo que abarque todo el ciclo de vida de la habilidad — generación de experiencia, extracción de habilidades y consumo de habilidades — para preguntar si dichas habilidades realmente funcionan, cuándo funcionan y qué determina su éxito o fracaso. Para cerrar esta brecha, construimos un marco de evaluación basado en la utilidad que proporciona resultados experimentales sistemáticos a través de extractores y agentes objetivo, abarcando cinco dominios de tareas agentivas diversas. Encontramos que las habilidades generadas por modelos son beneficiosas en promedio, pero presentan una transferencia negativa no trivial, y que ni los extractores ni los objetivos se comportan de manera uniforme. Un modelo puede ser un extractor fuerte pero un consumidor débil, o viceversa, con una utilidad de la habilidad independiente de la escala del modelo o de la fortaleza basal de la tarea. Para explicar estos patrones, luego diseccionamos en profundidad cada etapa del ciclo de vida, analizando cómo la composición de la experiencia moldea la calidad de la habilidad, qué propiedades caracterizan a las habilidades útiles y cómo la misma habilidad se transfiere entre diferentes consumidores. Finalmente, traducimos estos hallazgos en una meta-habilidad concreta que guía la extracción de habilidades hacia las características vinculadas a la utilidad real, lo que mejora consistentemente la calidad de la habilidad en todos los dominios y reduce sustancialmente la transferencia negativa.

English

Language agents increasingly improve by reusing skills -- structured procedural artifacts distilled from past experience. In particular, domain-level and model-generated skills are especially promising. They offer fast adaptation within a domain by encoding domain-specific recurring procedures, and they scale beyond labor-intensive hand-crafting. However, while extraction methods continue to proliferate, understanding remains limited, with no comprehensive study spanning the full skill lifecycle -- experience generation, skill extraction, and skill consumption -- to ask whether such skills actually work, when they work, and what makes them succeed or fail. To close this gap, we build a utility-grounded evaluation framework that provides systematic experimental results across extractors and target agents, covering five diverse agentic task domains. We find that model-generated skills are beneficial on average but exhibit non-trivial negative transfer, and that neither extractors nor targets behave uniformly. A model can be a strong extractor yet a weak consumer, or vice versa, with skill utility independent of model scale or baseline task strength. To explain these patterns, we then dissect each lifecycle stage in depth, analyzing how experience composition shapes skill quality, what properties characterize useful skills, and how the same skill transfers across different consumers. Finally, we translate these findings into a concrete meta-skill that guides skill extraction toward the features tied to actual utility, which consistently improves skill quality across domains and substantially reduces negative transfer.