Habilidade Não é Tamanho Único: Alinhamento de Habilidades Consciente do Modelo para Agentes LLM

Resumo

Agentes LLM cada vez mais recuperam habilidades externamente curadas—instruções processuais recuperadas no momento da decisão—para melhorar o desempenho em tarefas interativas de horizonte longo. Bibliotecas de habilidades existentes são tipicamente tratadas como agnósticas em relação ao modelo, reutilizando as mesmas formulações de habilidades em diferentes backbones com capacidades e comportamentos substancialmente distintos. No entanto, nossos experimentos controlados em múltiplas escalas de modelo mostram que a eficácia das habilidades é fortemente dependente do modelo: uma habilidade que beneficia um backbone pode prejudicar outro. Motivados por essa observação, propomos o MASA (Model-Aware Skill Alignment), uma estrutura que adapta habilidades a cada backbone alvo sem modificar os pesos do agente. O MASA opera em dois estágios: (1) um pipeline hierárquico de evolução de habilidades que reescreve iterativamente habilidades gerais e específicas de tarefas usando hill climbing e busca em árvore orientada por UCB, guiado por feedback do ambiente e perfis de capacidade do modelo; e (2) um reescritor de habilidades leve e condicionado ao modelo, treinado em trajetórias de evolução para reproduzir a adaptação em uma única passagem direta. Experimentos em três ambientes interativos e quatro backbones mostram que o MASA atinge consistentemente o melhor desempenho geral, com ganhos de até 25,8 pontos sobre a linha de base mais forte. O reescritor aprendido ainda generaliza para tarefas e ambientes não vistos sem busca adicional, superando consistentemente um LLM professor muito maior a uma fração do custo de inferência.

English

LLM agents increasingly retrieve externally curated skills-procedural instructions retrieved at decision time-to improve performance on long-horizon interactive tasks. Existing skill libraries are typically treated as model-agnostic, reusing the same skill formulations across backbones with substantially different capacities and behaviors. However, our controlled experiments across multiple model scales show that skill effectiveness is strongly model-dependent: a skill that benefits one backbone can harm another. Motivated by this observation, we propose MASA Model-Aware Skill Alignment, a framework that adapts skills to each target backbone without modifying agent weights. MASA operates in two stages: (1) a hierarchical skill evolution pipeline that iteratively rewrites general and task-specific skills using hill climbing and UCB-driven tree search, guided by environment feedback and model capability profiles; and (2) a lightweight model-conditioned skill rewriter trained on evolution trajectories to reproduce the adaptation in a single forward pass. Experiments across three interactive environments and four backbones show that MASA consistently achieves the best overall performance, with gains of up to 25.8 points over the strongest baseline. The learned rewriter further generalizes to unseen tasks and environments without additional search, consistently outperforming a much larger teacher LLM at a fraction of the inference cost.