LatentSkill: Van in-context tekstuele vaardigheden naar latente vaardigheden in de gewichten voor LLM-agenten

Samenvatting

Agentsystemen maken steeds vaker gebruik van tekstuele vaardigheden om herbruikbare taakprocedures te coderen, maar het injecteren van deze vaardigheden in de prompt bij elke stap brengt een aanzienlijke contextoverhead met zich mee en stelt de inhoud van de vaardigheden bloot als platte tekst. Wij presenteren LatentSkill, een raamwerk dat tekstuele vaardigheden omzet in plug-and-play LoRA-adapters via een voorgetraind hypernetwerk. LatentSkill slaat vaardigheidskennis op in de gewichtsruimte in plaats van de contextruimte, waardoor per-stap vaardigheidstokens worden verwijderd terwijl modulair laden, schalen en samenstellen behouden blijft. Op ALFWorld en Search-QA presteert LatentSkill beter dan de corresponderende in-context vaardigheidsbaseline, terwijl het aanzienlijk minder prefill-tokens gebruikt: het verbetert het succes op ALFWorld met 21,4 en 13,4 punten op respectievelijk de geziene en ongeziene splitsingen, met 64,1% minder prefill-tokens, en verbetert de exacte overeenkomst op Search-QA met 3,0 punten bij 72,2% lagere vaardigheidstoken-overhead. Verdere analyse toont aan dat gegenereerde vaardigheid-LoRA's een gestructureerde semantische geometrie vormen, nauwkeurig kunnen worden gecontroleerd via de LoRA-schalingscoëfficiënt, en kunnen worden samengesteld via parameterruimte-rekenkunde wanneer vaardigheidscomponenten zijn uitgelijnd. Deze bevindingen suggereren dat gewichtsruimtevaardigheden een efficiënt, modulair en minder blootgesteld substraat bieden voor het uitbreiden van LLM-agenten.

English

Agent systems increasingly use textual skills to encode reusable task procedures, but injecting these skills into the prompt at every step incurs substantial context overhead and exposes skill content as plaintext. We present LatentSkill, a framework that converts textual skills into plug-and-play LoRA adapters through a pretrained hypernetwork. LatentSkill stores skill knowledge in weight space rather than context space, removing per-step skill tokens while preserving modular loading, scaling, and composition. On ALFWorld and Search-QA, LatentSkill outperforms the corresponding in-context skill baseline while using substantially fewer prefill tokens: it improves ALFWorld success by 21.4 and 13.4 points on the seen and unseen splits with 64.1% fewer prefill tokens, and improves Search-QA exact match by 3.0 points with 72.2% lower skill-token overhead. Further analysis shows that generated skill LoRAs form a structured semantic geometry, can be precisely controlled via the LoRA scaling coefficient, and can be composed through parameter-space arithmetic when skill components are aligned. These findings suggest that weight-space skills provide an efficient, modular, and less exposed substrate for extending LLM agents.