Adaptive Multi-Auflösungs-Kompression von prozeduralem Wissen für große Sprachmodelle

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) werden häufig eingesetzt, um komplexe Aufgaben mit autonomen Arbeitsabläufen zu bewältigen. In letzter Zeit haben sich wiederverwendbare Fähigkeiten in natürlicher Sprache als ein verbreitetes Paradigma etabliert, um prozedurales Wissen in LLM-Anwendungen einzubringen. Da populäre Fähigkeiten oft wiederholt aufgerufen werden, erhöht das Einfügen ihres vollständigen Textes in jeden Kontext die Prefill-Kosten und die Latenz erheblich. Während Textkomprimierungstechniken das Potenzial haben, dieses Problem zu lösen, sind die meisten vorhandenen Methoden darauf ausgelegt, Faktenwissen in Dokumenten zu komprimieren, nicht jedoch prozedurales Wissen, was sie für die Komprimierung von Fähigkeiten unzureichend macht. In diesem Artikel argumentieren wir, dass eine effektive Methode zur Fähigkeitenkomprimierung folgende Anforderungen erfüllen sollte: 1) die logischen Abhängigkeiten zwischen Arbeitsabläufen und Werkzeugprotokollen bewahren, 2) eine leichte, offline-Komprimierung für häufig aktualisierte Community-Fähigkeiten ermöglichen und 3) an unterschiedliche Komplexitäten von Fähigkeiten anpassbar sein. Um dies zu adressieren, stellen wir SKIM (SKIll coMpression) vor, ein adaptives Multi-Resolution-Soft-Token-Komprimierungsframework für prozedurale Fähigkeiten. Abhängig von der Komplexität jeder Fähigkeit erzeugt SKIM unterschiedliche Anzahlen von Soft-Tokens, die nicht nur die Effizienz der LLM-Inferenz verbessern, sondern auch die Wirksamkeit der Fähigkeitsnutzung bewahren. Experimente zeigen, dass SKIM Fähigkeiten auf 30 bis 60 Prozent ihrer ursprünglichen Tokenlänge komprimiert und dabei die Aufgabenleistung besser bewahrt als bestehende Komprimierungsmethoden. Wir haben unseren Code unter https://github.com/bebr2/SKIM veröffentlicht.

English

Large language models (LLMs) are widely used to tackle complex tasks with autonomous workflows. Recently, reusable natural language skills have emerged as a popular paradigm to inject procedural knowledge into LLM applications. Since popular skills are often invoked repeatedly, placing their full text in every context significantly increases prefill cost and latency. While text compression techniques have the potential to solve this problem, most existing methods are designed to compress factual knowledge in documents instead of procedural knowledge, making them insufficient for skill compression. In this paper, we argue that an effective skill compression method should: 1) preserve logical dependencies among workflows and tool protocols, 2) enable lightweight, offline compression for frequently updated community skills, and 3) be adaptable to varying complexities across skills. To address this, we present SKIM (SKIll coMpression), an adaptive multi-resolution soft token compression framework for procedural skills. Depending on the complexity of each skill, SKIM creates different numbers of soft tokens that not only improve the efficiency of LLM inference, but also preserve the effectiveness of skill usage. Experiments indicate that SKIM compresses skills to 30 to 60 percent of their original token length while preserving task performance better than existing compression methods.We have released our code at https://github.com/bebr2/SKIM .