LatentSkill: De Habilidades Textuais no Contexto para Habilidades Latentes em Pesos para Agentes de LLM

Resumo

Sistemas de agentes utilizam cada vez mais habilidades textuais para codificar procedimentos de tarefas reutilizáveis, mas injetar essas habilidades no prompt a cada etapa incorre em custo substancial de contexto e expõe o conteúdo das habilidades como texto simples. Apresentamos LatentSkill, um framework que converte habilidades textuais em adaptadores LoRA plug-and-play por meio de uma hiper-rede pré-treinada. LatentSkill armazena o conhecimento das habilidades no espaço de pesos, e não no espaço de contexto, removendo tokens de habilidade por etapa, preservando carregamento, escalonamento e composição modulares. Em ALFWorld e Search-QA, LatentSkill supera a linha de base correspondente de habilidades no contexto, utilizando substancialmente menos tokens de pré-preenchimento: melhora a taxa de sucesso no ALFWorld em 21,4 e 13,4 pontos nas divisões vistas e não vistas, com 64,1% menos tokens de pré-preenchimento, e melhora a correspondência exata no Search-QA em 3,0 pontos, com 72,2% menos custo de tokens de habilidade. Análises adicionais mostram que os LoRAs de habilidade gerados formam uma geometria semântica estruturada, podem ser controlados precisamente pelo coeficiente de escalonamento LoRA e podem ser compostos por aritmética no espaço de parâmetros quando os componentes de habilidade estão alinhados. Esses achados sugerem que habilidades no espaço de pesos fornecem um substrato eficiente, modular e menos exposto para estender agentes LLM.

English

Agent systems increasingly use textual skills to encode reusable task procedures, but injecting these skills into the prompt at every step incurs substantial context overhead and exposes skill content as plaintext. We present LatentSkill, a framework that converts textual skills into plug-and-play LoRA adapters through a pretrained hypernetwork. LatentSkill stores skill knowledge in weight space rather than context space, removing per-step skill tokens while preserving modular loading, scaling, and composition. On ALFWorld and Search-QA, LatentSkill outperforms the corresponding in-context skill baseline while using substantially fewer prefill tokens: it improves ALFWorld success by 21.4 and 13.4 points on the seen and unseen splits with 64.1% fewer prefill tokens, and improves Search-QA exact match by 3.0 points with 72.2% lower skill-token overhead. Further analysis shows that generated skill LoRAs form a structured semantic geometry, can be precisely controlled via the LoRA scaling coefficient, and can be composed through parameter-space arithmetic when skill components are aligned. These findings suggest that weight-space skills provide an efficient, modular, and less exposed substrate for extending LLM agents.