LatentSkill: De habilidades textuales en contexto a habilidades latentes en los pesos para agentes de LLM

Resumen

Los sistemas de agentes utilizan cada vez más habilidades textuales para codificar procedimientos de tareas reutilizables, pero la inyección de estas habilidades en el prompt en cada paso genera una sobrecarga sustancial de contexto y expone el contenido de las habilidades como texto plano. Presentamos LatentSkill, un marco que convierte habilidades textuales en adaptadores LoRA plug-and-play a través de una hiperred preentrenada. LatentSkill almacena el conocimiento de las habilidades en el espacio de pesos en lugar del espacio de contexto, eliminando los tokens de habilidad por paso mientras preserva la carga, escalado y composición modulares. En ALFWorld y Search-QA, LatentSkill supera la línea base de habilidad en contexto correspondiente mientras utiliza sustancialmente menos tokens de prellenado: mejora el éxito en ALFWorld en 21.4 y 13.4 puntos en las divisiones vistas y no vistas con un 64.1% menos de tokens de prellenado, y mejora el emparejamiento exacto en Search-QA en 3.0 puntos con un 72.2% menos de sobrecarga de tokens de habilidad. Análisis adicionales muestran que los LoRA de habilidad generados forman una geometría semántica estructurada, pueden controlarse con precisión mediante el coeficiente de escalado de LoRA, y pueden componerse mediante aritmética en el espacio de parámetros cuando los componentes de la habilidad están alineados. Estos hallazgos sugieren que las habilidades en el espacio de pesos proporcionan un sustrato eficiente, modular y menos expuesto para extender agentes LLM.

English

Agent systems increasingly use textual skills to encode reusable task procedures, but injecting these skills into the prompt at every step incurs substantial context overhead and exposes skill content as plaintext. We present LatentSkill, a framework that converts textual skills into plug-and-play LoRA adapters through a pretrained hypernetwork. LatentSkill stores skill knowledge in weight space rather than context space, removing per-step skill tokens while preserving modular loading, scaling, and composition. On ALFWorld and Search-QA, LatentSkill outperforms the corresponding in-context skill baseline while using substantially fewer prefill tokens: it improves ALFWorld success by 21.4 and 13.4 points on the seen and unseen splits with 64.1% fewer prefill tokens, and improves Search-QA exact match by 3.0 points with 72.2% lower skill-token overhead. Further analysis shows that generated skill LoRAs form a structured semantic geometry, can be precisely controlled via the LoRA scaling coefficient, and can be composed through parameter-space arithmetic when skill components are aligned. These findings suggest that weight-space skills provide an efficient, modular, and less exposed substrate for extending LLM agents.