La habilidad no es de talla única: Alineación de habilidades consciente del modelo para agentes LLM

Resumen

Los agentes basados en LLM recurren cada vez más a habilidades externamente seleccionadas —instrucciones procedimentales recuperadas en el momento de la decisión— para mejorar su desempeño en tareas interactivas de largo horizonte. Las bibliotecas de habilidades existentes suelen tratarse como independientes del modelo, reutilizando las mismas formulaciones de habilidades en backbones con capacidades y comportamientos sustancialmente diferentes. Sin embargo, nuestros experimentos controlados en múltiples escalas de modelos muestran que la efectividad de las habilidades depende fuertemente del modelo: una habilidad que beneficia a un backbone puede perjudicar a otro. Motivados por esta observación, proponemos MASA (Model-Aware Skill Alignment, Alineamiento de Habilidades Consciente del Modelo), un marco que adapta las habilidades a cada backbone objetivo sin modificar los pesos del agente. MASA opera en dos etapas: (1) un pipeline jerárquico de evolución de habilidades que reescribe iterativamente habilidades generales y específicas de la tarea mediante escalada de colinas y búsqueda en árboles impulsada por UCB, guiado por la retroalimentación del entorno y los perfiles de capacidad del modelo; y (2) un reescritor de habilidades ligero condicionado al modelo, entrenado en trayectorias de evolución para reproducir la adaptación en un único pase hacia adelante. Los experimentos en tres entornos interactivos y cuatro backbones muestran que MASA logra consistentemente el mejor rendimiento global, con mejoras de hasta 25,8 puntos sobre la línea base más fuerte. El reescritor aprendido además se generaliza a tareas y entornos no vistos sin búsqueda adicional, superando consistentemente a un LLM profesor mucho más grande con una fracción del costo de inferencia.

English

LLM agents increasingly retrieve externally curated skills-procedural instructions retrieved at decision time-to improve performance on long-horizon interactive tasks. Existing skill libraries are typically treated as model-agnostic, reusing the same skill formulations across backbones with substantially different capacities and behaviors. However, our controlled experiments across multiple model scales show that skill effectiveness is strongly model-dependent: a skill that benefits one backbone can harm another. Motivated by this observation, we propose MASA Model-Aware Skill Alignment, a framework that adapts skills to each target backbone without modifying agent weights. MASA operates in two stages: (1) a hierarchical skill evolution pipeline that iteratively rewrites general and task-specific skills using hill climbing and UCB-driven tree search, guided by environment feedback and model capability profiles; and (2) a lightweight model-conditioned skill rewriter trained on evolution trajectories to reproduce the adaptation in a single forward pass. Experiments across three interactive environments and four backbones show that MASA consistently achieves the best overall performance, with gains of up to 25.8 points over the strongest baseline. The learned rewriter further generalizes to unseen tasks and environments without additional search, consistently outperforming a much larger teacher LLM at a fraction of the inference cost.