LatentSkill: от контекстных текстовых навыков к внутривесовым латентным навыкам для LLM-агентов

Аннотация

Агентные системы все чаще используют текстовые навыки для кодирования повторно используемых процедур, однако внедрение этих навыков в промпт на каждом шаге приводит к значительным накладным расходам контекста и раскрывает содержание навыков в виде открытого текста. Мы представляем LatentSkill — фреймворк, преобразующий текстовые навыки в подключаемые адаптеры LoRA с помощью предобученной гиперсети. LatentSkill хранит знания навыков в пространстве весов, а не в пространстве контекста, устраняя необходимость в токенах навыков на каждом шаге, сохраняя при этом модульную загрузку, масштабирование и композицию. На наборах данных ALFWorld и Search-QA LatentSkill превосходит соответствующий базовый метод с контекстными навыками, используя при этом значительно меньше токенов предзаполнения: улучшение успешности на ALFWorld составляет 21,4 и 13,4 пункта для известного и неизвестного разделов соответственно при сокращении токенов предзаполнения на 64,1%, а точное совпадение на Search-QA улучшается на 3,0 пункта при снижении накладных расходов на токены навыков на 72,2%. Дальнейший анализ показывает, что сгенерированные LoRA-навыки образуют структурированную семантическую геометрию, могут точно контролироваться с помощью коэффициента масштабирования LoRA и компоноваться посредством арифметики в пространстве параметров при согласовании компонентов навыков. Эти результаты свидетельствуют о том, что навыки в пространстве весов обеспечивают эффективную, модульную и менее открытую основу для расширения возможностей LLM-агентов.

English

Agent systems increasingly use textual skills to encode reusable task procedures, but injecting these skills into the prompt at every step incurs substantial context overhead and exposes skill content as plaintext. We present LatentSkill, a framework that converts textual skills into plug-and-play LoRA adapters through a pretrained hypernetwork. LatentSkill stores skill knowledge in weight space rather than context space, removing per-step skill tokens while preserving modular loading, scaling, and composition. On ALFWorld and Search-QA, LatentSkill outperforms the corresponding in-context skill baseline while using substantially fewer prefill tokens: it improves ALFWorld success by 21.4 and 13.4 points on the seen and unseen splits with 64.1% fewer prefill tokens, and improves Search-QA exact match by 3.0 points with 72.2% lower skill-token overhead. Further analysis shows that generated skill LoRAs form a structured semantic geometry, can be precisely controlled via the LoRA scaling coefficient, and can be composed through parameter-space arithmetic when skill components are aligned. These findings suggest that weight-space skills provide an efficient, modular, and less exposed substrate for extending LLM agents.