Fähigkeiten sind keine Einheitslösung: Modellbewusste Fähigkeitsausrichtung für LLM-Agenten

Zusammenfassung

LLM-Agenten greifen zunehmend auf extern kuratierte Skills zurück – prozedurale Anweisungen, die zum Entscheidungszeitpunkt abgerufen werden – um ihre Leistung bei langfristigen interaktiven Aufgaben zu verbessern. Existierende Skill-Bibliotheken werden typischerweise als modellagnostisch behandelt, wobei dieselben Skill-Formulierungen über verschiedene Backbones mit erheblich unterschiedlichen Kapazitäten und Verhaltensweisen hinweg wiederverwendet werden. Unsere kontrollierten Experimente über mehrere Modellskalen hinweg zeigen jedoch, dass die Wirksamkeit von Skills stark modellabhängig ist: Ein Skill, der einem Backbone nützt, kann einem anderen schaden. Ausgehend von dieser Beobachtung schlagen wir MASA (Model-Aware Skill Alignment) vor, ein Framework, das Skills an jeden Ziel-Backbone anpasst, ohne die Agentengewichte zu verändern. MASA arbeitet in zwei Stufen: (1) eine hierarchische Skill-Evolutions-Pipeline, die allgemeine und aufgabenspezifische Skills iterativ mittels Hill-Climbing und UCB-gesteuerter Baumsuche umschreibt, gesteuert durch Umgebungsfeedback und Modellfähigkeitsprofile; und (2) ein leichtgewichtiger, modellkonditionierter Skill-Umschreiber, der auf Evolutionsverläufen trainiert wird, um die Anpassung in einem einzigen Vorwärtsdurchlauf zu reproduzieren. Experimente in drei interaktiven Umgebungen und mit vier Backbones zeigen, dass MASA konsistent die beste Gesamtleistung erzielt, mit Verbesserungen von bis zu 25,8 Punkten gegenüber der stärksten Baseline. Der gelernte Umschreiber generalisiert zudem auf unbekannte Aufgaben und Umgebungen ohne zusätzliche Suche und übertrifft dabei durchweg einen viel größeren Teacher-LLM bei einem Bruchteil der Inferenzkosten.

English

LLM agents increasingly retrieve externally curated skills-procedural instructions retrieved at decision time-to improve performance on long-horizon interactive tasks. Existing skill libraries are typically treated as model-agnostic, reusing the same skill formulations across backbones with substantially different capacities and behaviors. However, our controlled experiments across multiple model scales show that skill effectiveness is strongly model-dependent: a skill that benefits one backbone can harm another. Motivated by this observation, we propose MASA Model-Aware Skill Alignment, a framework that adapts skills to each target backbone without modifying agent weights. MASA operates in two stages: (1) a hierarchical skill evolution pipeline that iteratively rewrites general and task-specific skills using hill climbing and UCB-driven tree search, guided by environment feedback and model capability profiles; and (2) a lightweight model-conditioned skill rewriter trained on evolution trajectories to reproduce the adaptation in a single forward pass. Experiments across three interactive environments and four backbones show that MASA consistently achieves the best overall performance, with gains of up to 25.8 points over the strongest baseline. The learned rewriter further generalizes to unseen tasks and environments without additional search, consistently outperforming a much larger teacher LLM at a fraction of the inference cost.