Vaardigheid is niet one-size-fits-all: Modelbewuste vaardigheidsafstemming voor LLM-agenten

Samenvatting

LLM-agenten maken steeds vaker gebruik van extern samengestelde vaardigheids-procedurele instructies die op beslissingsmomenten worden opgehaald om hun prestaties bij langdurige interactieve taken te verbeteren. Bestaande vaardigheidsbibliotheken worden doorgaans als model-agnostisch behandeld, waarbij dezelfde vaardigheidsformuleringen worden hergebruikt over backbones met aanzienlijk verschillende capaciteiten en gedragingen. Onze gecontroleerde experimenten over meerdere modelschalen tonen echter aan dat de effectiviteit van vaardigheden sterk modelafhankelijk is: een vaardigheid die de ene backbone ten goede komt, kan een andere schaden. Naar aanleiding van deze observatie stellen we MASA (Model-Aware Skill Alignment) voor, een raamwerk dat vaardigheden aanpast aan elke doel-backbone zonder de agentgewichten te wijzigen. MASA werkt in twee fasen: (1) een hiërarchische vaardigheidsevolutiepijplijn die iteratief algemene en taakspecifieke vaardigheden herschrijft met behulp van hill climbing en UCB-gestuurd boom zoeken, geleid door omgevingsfeedback en modelcapaciteitsprofielen; en (2) een lichtgewicht model-afhankelijke vaardigheid-herschrijver, getraind op evolutietrajecten, om de aanpassing in een enkele forward-pass te reproduceren. Experimenten in drie interactieve omgevingen en met vier backbones laten zien dat MASA consistent de beste algehele prestaties behaalt, met winsten tot 25,8 punten ten opzichte van de sterkste baseline. De getrainde herschrijver generaliseert bovendien naar ongeziene taken en omgevingen zonder extra zoekopdrachten, en presteert consistent beter dan een veel grotere leraar-LLM tegen een fractie van de inferentiekosten.

English

LLM agents increasingly retrieve externally curated skills-procedural instructions retrieved at decision time-to improve performance on long-horizon interactive tasks. Existing skill libraries are typically treated as model-agnostic, reusing the same skill formulations across backbones with substantially different capacities and behaviors. However, our controlled experiments across multiple model scales show that skill effectiveness is strongly model-dependent: a skill that benefits one backbone can harm another. Motivated by this observation, we propose MASA Model-Aware Skill Alignment, a framework that adapts skills to each target backbone without modifying agent weights. MASA operates in two stages: (1) a hierarchical skill evolution pipeline that iteratively rewrites general and task-specific skills using hill climbing and UCB-driven tree search, guided by environment feedback and model capability profiles; and (2) a lightweight model-conditioned skill rewriter trained on evolution trajectories to reproduce the adaptation in a single forward pass. Experiments across three interactive environments and four backbones show that MASA consistently achieves the best overall performance, with gains of up to 25.8 points over the strongest baseline. The learned rewriter further generalizes to unseen tasks and environments without additional search, consistently outperforming a much larger teacher LLM at a fraction of the inference cost.