LatentSkill: Von kontextuellen Textfähigkeiten zu latenten Fähigkeiten in den Gewichten für LLM-Agenten

Zusammenfassung

Agentensysteme nutzen zunehmend textuelle Fähigkeiten, um wiederverwendbare Aufgabenprozeduren zu kodieren. Die Einbettung dieser Fähigkeiten in den Prompt bei jedem Schritt verursacht jedoch einen erheblichen Kontext-Overhead und legt den Inhalt der Fähigkeiten als Klartext offen. Wir stellen LatentSkill vor, ein Framework, das textuelle Fähigkeiten mithilfe eines vortrainierten Hypernetzwerks in Plug-and-Play-LoRA-Adapter umwandelt. LatentSkill speichert Fähigkeitswissen im Gewichtsraum anstatt im Kontextraum, entfernt schrittweise Fähigkeits-Token und bewahrt gleichzeitig modulares Laden, Skalieren und Komponieren. Bei ALFWorld und Search-QA übertrifft LatentSkill die entsprechende In-Context-Skill-Baseline bei deutlich geringerer Anzahl von Prefill-Tokens: Es verbessert den ALFWorld-Erfolg um 21,4 bzw. 13,4 Punkte auf den gesehenen und ungesehenen Aufteilungen bei 64,1 % weniger Prefill-Tokens und verbessert die exakte Übereinstimmung bei Search-QA um 3,0 Punkte bei 72,2 % geringerem Skill-Token-Overhead. Weitere Analysen zeigen, dass generierte Skill-LoRAs eine strukturierte semantische Geometrie bilden, präzise über den LoRA-Skalierungskoeffizienten gesteuert werden können und durch Arithmetik im Parameterraum komponiert werden können, wenn die Skill-Komponenten ausgerichtet sind. Diese Ergebnisse deuten darauf hin, dass Fähigkeiten im Gewichtsraum eine effiziente, modulare und weniger exponierte Grundlage für die Erweiterung von LLM-Agenten bieten.

English

Agent systems increasingly use textual skills to encode reusable task procedures, but injecting these skills into the prompt at every step incurs substantial context overhead and exposes skill content as plaintext. We present LatentSkill, a framework that converts textual skills into plug-and-play LoRA adapters through a pretrained hypernetwork. LatentSkill stores skill knowledge in weight space rather than context space, removing per-step skill tokens while preserving modular loading, scaling, and composition. On ALFWorld and Search-QA, LatentSkill outperforms the corresponding in-context skill baseline while using substantially fewer prefill tokens: it improves ALFWorld success by 21.4 and 13.4 points on the seen and unseen splits with 64.1% fewer prefill tokens, and improves Search-QA exact match by 3.0 points with 72.2% lower skill-token overhead. Further analysis shows that generated skill LoRAs form a structured semantic geometry, can be precisely controlled via the LoRA scaling coefficient, and can be composed through parameter-space arithmetic when skill components are aligned. These findings suggest that weight-space skills provide an efficient, modular, and less exposed substrate for extending LLM agents.