Навык не универсален: согласование навыков с учетом модели для LLM-агентов

Аннотация

Агенты на основе больших языковых моделей (LLM) всё чаще используют внешние библиотеки навыков — процедурные инструкции, извлекаемые в момент принятия решений, — для повышения производительности в долгосрочных интерактивных задачах. Существующие библиотеки навыков, как правило, рассматриваются как модельно-независимые: одни и те же формулировки навыков применяются к базовым моделям с существенно различающимися ёмкостью и поведением. Однако наши контролируемые эксперименты на нескольких масштабах моделей показывают, что эффективность навыков сильно зависит от модели: навык, полезный для одной базовой модели, может навредить другой. Основываясь на этом наблюдении, мы предлагаем MASA (Model-Aware Skill Alignment) — фреймворк для выравнивания навыков с учётом модели, адаптирующий навыки к каждой целевой базовой модели без изменения весов агента. MASA работает в два этапа: (1) иерархический конвейер эволюции навыков, который итеративно переписывает общие и специфичные для задачи навыки, используя восхождение на холм и поиск по дереву на основе UCB, направляемые обратной связью от среды и профилями возможностей модели; (2) легковесный перезаписыватель навыков, обусловленный моделью, обученный на траекториях эволюции для воспроизведения адаптации за один прямой проход. Эксперименты в трёх интерактивных средах с четырьмя базовыми моделями показывают, что MASA неизменно достигает наилучшей общей производительности, обеспечивая прирост до 25,8 пункта по сравнению с самым сильным базовым методом. Обученный перезаписыватель дополнительно обобщается на невиданные задачи и среды без дополнительного поиска, стабильно превосходя гораздо более крупную учительскую LLM при значительно меньших затратах на инференс.

English

LLM agents increasingly retrieve externally curated skills-procedural instructions retrieved at decision time-to improve performance on long-horizon interactive tasks. Existing skill libraries are typically treated as model-agnostic, reusing the same skill formulations across backbones with substantially different capacities and behaviors. However, our controlled experiments across multiple model scales show that skill effectiveness is strongly model-dependent: a skill that benefits one backbone can harm another. Motivated by this observation, we propose MASA Model-Aware Skill Alignment, a framework that adapts skills to each target backbone without modifying agent weights. MASA operates in two stages: (1) a hierarchical skill evolution pipeline that iteratively rewrites general and task-specific skills using hill climbing and UCB-driven tree search, guided by environment feedback and model capability profiles; and (2) a lightweight model-conditioned skill rewriter trained on evolution trajectories to reproduce the adaptation in a single forward pass. Experiments across three interactive environments and four backbones show that MASA consistently achieves the best overall performance, with gains of up to 25.8 points over the strongest baseline. The learned rewriter further generalizes to unseen tasks and environments without additional search, consistently outperforming a much larger teacher LLM at a fraction of the inference cost.