От сырого опыта к потреблению навыков: Систематическое исследование навыков агентов, сгенерированных моделью

Аннотация

Языковые агенты всё чаще совершенствуются за счёт повторного использования навыков — структурированных процедурных артефактов, извлечённых из прошлого опыта. В особенности перспективны навыки, ориентированные на домен, и навыки, сгенерированные моделью. Они обеспечивают быструю адаптацию в рамках домена за счёт кодирования повторяющихся процедур, специфичных для данного домена, и масштабируются за пределы трудоёмкого ручного создания. Однако, несмотря на продолжающееся распространение методов извлечения, понимание остаётся ограниченным: отсутствует всестороннее исследование, охватывающее полный жизненный цикл навыка — генерацию опыта, извлечение навыка и его потребление, — чтобы выяснить, действительно ли такие навыки работают, когда они работают и что определяет их успех или неудачу. Для восполнения этого пробела мы создаём оценочную среду, основанную на полезности, которая предоставляет систематические экспериментальные результаты для различных извлекателей и целевых агентов, охватывая пять разнообразных доменов агентных задач. Мы обнаружили, что навыки, сгенерированные моделями, в среднем полезны, но демонстрируют нетривиальный отрицательный перенос, и что ни извлекатели, ни цели не ведут себя единообразно. Модель может быть сильным извлекателем, но слабым потребителем, или наоборот, причём полезность навыка не зависит от масштаба модели или базовой сложности задачи. Чтобы объяснить эти закономерности, мы затем детально разбираем каждый этап жизненного цикла, анализируя, как состав опыта формирует качество навыка, какие свойства характеризуют полезные навыки и как один и тот же навык переносится между разными потребителями. Наконец, мы преобразуем эти результаты в конкретный метанавык, который направляет извлечение навыков на признаки, связанные с фактической полезностью, что последовательно улучшает качество навыков в разных доменах и существенно снижает отрицательный перенос.

English

Language agents increasingly improve by reusing skills -- structured procedural artifacts distilled from past experience. In particular, domain-level and model-generated skills are especially promising. They offer fast adaptation within a domain by encoding domain-specific recurring procedures, and they scale beyond labor-intensive hand-crafting. However, while extraction methods continue to proliferate, understanding remains limited, with no comprehensive study spanning the full skill lifecycle -- experience generation, skill extraction, and skill consumption -- to ask whether such skills actually work, when they work, and what makes them succeed or fail. To close this gap, we build a utility-grounded evaluation framework that provides systematic experimental results across extractors and target agents, covering five diverse agentic task domains. We find that model-generated skills are beneficial on average but exhibit non-trivial negative transfer, and that neither extractors nor targets behave uniformly. A model can be a strong extractor yet a weak consumer, or vice versa, with skill utility independent of model scale or baseline task strength. To explain these patterns, we then dissect each lifecycle stage in depth, analyzing how experience composition shapes skill quality, what properties characterize useful skills, and how the same skill transfers across different consumers. Finally, we translate these findings into a concrete meta-skill that guides skill extraction toward the features tied to actual utility, which consistently improves skill quality across domains and substantially reduces negative transfer.