La compétence n'est pas universelle : alignement des compétences tenant compte du modèle pour les agents LLM

Résumé

Les agents LLM récupèrent de plus en plus des compétences organisées en externe – des instructions procédurales récupérées au moment de la décision – pour améliorer leurs performances sur des tâches interactives à long terme. Les bibliothèques de compétences existantes sont généralement traitées comme agnostiques au modèle, réutilisant les mêmes formulations de compétences à travers des modèles de base aux capacités et comportements sensiblement différents. Cependant, nos expériences contrôlées à plusieurs échelles de modèle montrent que l'efficacité des compétences est fortement dépendante du modèle : une compétence qui bénéficie à un modèle de base peut en nuire à un autre. Motivés par cette observation, nous proposons MASA (Model-Aware Skill Alignment), un cadre qui adapte les compétences à chaque modèle de base cible sans modifier les poids de l'agent. MASA fonctionne en deux étapes : (1) un pipeline hiérarchique d'évolution des compétences qui réécrit de manière itérative les compétences générales et spécifiques aux tâches en utilisant l'ascension de colline et la recherche arborescente pilotée par UCB, guidé par les retours d'environnement et les profils de capacité du modèle ; et (2) un réécriveur de compétences léger conditionné par le modèle, entraîné sur des trajectoires d'évolution pour reproduire l'adaptation en un seul passage avant. Les expériences menées dans trois environnements interactifs et avec quatre modèles de base montrent que MASA obtient systématiquement les meilleures performances globales, avec des gains allant jusqu'à 25,8 points par rapport à la référence la plus forte. Le réécriveur appris généralise en outre à des tâches et environnements inconnus sans recherche supplémentaire, surpassant systématiquement un LLM enseignant beaucoup plus grand pour une fraction du coût d'inférence.

English

LLM agents increasingly retrieve externally curated skills-procedural instructions retrieved at decision time-to improve performance on long-horizon interactive tasks. Existing skill libraries are typically treated as model-agnostic, reusing the same skill formulations across backbones with substantially different capacities and behaviors. However, our controlled experiments across multiple model scales show that skill effectiveness is strongly model-dependent: a skill that benefits one backbone can harm another. Motivated by this observation, we propose MASA Model-Aware Skill Alignment, a framework that adapts skills to each target backbone without modifying agent weights. MASA operates in two stages: (1) a hierarchical skill evolution pipeline that iteratively rewrites general and task-specific skills using hill climbing and UCB-driven tree search, guided by environment feedback and model capability profiles; and (2) a lightweight model-conditioned skill rewriter trained on evolution trajectories to reproduce the adaptation in a single forward pass. Experiments across three interactive environments and four backbones show that MASA consistently achieves the best overall performance, with gains of up to 25.8 points over the strongest baseline. The learned rewriter further generalizes to unseen tasks and environments without additional search, consistently outperforming a much larger teacher LLM at a fraction of the inference cost.