LatentSkill : Des compétences textuelles en contexte aux compétences latentes dans les poids pour les agents LLM

Résumé

Les systèmes d'agents utilisent de plus en plus des compétences textuelles pour coder des procédures de tâches réutilisables, mais injecter ces compétences dans l'invite à chaque étape engendre un surcoût contextuel important et expose le contenu des compétences sous forme de texte clair. Nous présentons LatentSkill, un cadre qui convertit les compétences textuelles en adaptateurs LoRA prêts à l'emploi via un hyperréseau pré-entraîné. LatentSkill stocke les connaissances des compétences dans l'espace des poids plutôt que dans l'espace contextuel, supprimant ainsi les jetons de compétence par étape tout en préservant le chargement, la mise à l'échelle et la composition modulaires. Sur ALFWorld et Search-QA, LatentSkill surpasse la baseline de compétence contextuelle correspondante tout en utilisant considérablement moins de jetons de préremplissage : il améliore le succès sur ALFWorld de 21,4 et 13,4 points sur les segments vus et non vus, avec 64,1 % de jetons de préremplissage en moins, et améliore la correspondance exacte sur Search-QA de 3,0 points avec une réduction de 72,2 % du surcoût en jetons de compétence. Des analyses supplémentaires montrent que les LoRA de compétence générés forment une géométrie sémantique structurée, peuvent être contrôlés précisément via le coefficient de mise à l'échelle LoRA, et peuvent être composés par une arithmétique dans l'espace des paramètres lorsque les composantes des compétences sont alignées. Ces résultats suggèrent que les compétences dans l'espace des poids offrent un substrat efficace, modulaire et moins exposé pour étendre les agents LLM.

English

Agent systems increasingly use textual skills to encode reusable task procedures, but injecting these skills into the prompt at every step incurs substantial context overhead and exposes skill content as plaintext. We present LatentSkill, a framework that converts textual skills into plug-and-play LoRA adapters through a pretrained hypernetwork. LatentSkill stores skill knowledge in weight space rather than context space, removing per-step skill tokens while preserving modular loading, scaling, and composition. On ALFWorld and Search-QA, LatentSkill outperforms the corresponding in-context skill baseline while using substantially fewer prefill tokens: it improves ALFWorld success by 21.4 and 13.4 points on the seen and unseen splits with 64.1% fewer prefill tokens, and improves Search-QA exact match by 3.0 points with 72.2% lower skill-token overhead. Further analysis shows that generated skill LoRAs form a structured semantic geometry, can be precisely controlled via the LoRA scaling coefficient, and can be composed through parameter-space arithmetic when skill components are aligned. These findings suggest that weight-space skills provide an efficient, modular, and less exposed substrate for extending LLM agents.