Adaptieve Multi-Resolutie Procedurele Kenniscompressie voor Grote Taalmodellen

Samenvatting

Grote taalmodellen (LLM's) worden veelvuldig ingezet voor complexe taken met autonome workflows. Recentelijk zijn herbruikbare natuurlijke-taalvaardigheden een populair paradigma geworden om procedurele kennis in LLM-toepassingen te injecteren. Aangezien populaire vaardigheden vaak herhaaldelijk worden opgeroepen, verhoogt het plaatsen van hun volledige tekst in elke context aanzienlijk de prefill-kosten en latentietijd. Hoewel tekstcompressietechnieken het potentieel hebben om dit probleem op te lossen, zijn de meeste bestaande methoden ontworpen om feitelijke kennis in documenten te comprimeren in plaats van procedurele kennis, waardoor ze onvoldoende zijn voor vaardigheidscompressie. In dit artikel stellen we dat een effectieve vaardigheidscompressiemethode: 1) logische afhankelijkheden tussen workflows en toolprotocollen moet behouden, 2) lichtgewicht, offline compressie mogelijk moet maken voor veelgebruikte gemeenschapsvaardigheden, en 3) aanpasbaar moet zijn aan variërende complexiteit tussen vaardigheden. Om dit aan te pakken presenteren we SKIM (SKIll coMpression), een adaptief multi-resolutie zacht-tokencompressieraamwerk voor procedurele vaardigheden. Afhankelijk van de complexiteit van elke vaardigheid creëert SKIM een verschillend aantal zachte tokens die niet alleen de efficiëntie van LLM-inferentie verbeteren, maar ook de effectiviteit van het gebruik van vaardigheden behouden. Experimenten tonen aan dat SKIM vaardigheden comprimeert tot 30 tot 60 procent van hun oorspronkelijke tokenlengte, terwijl de taakprestaties beter behouden blijven dan bij bestaande compressiemethoden. We hebben onze code vrijgegeven op https://github.com/bebr2/SKIM .

English

Large language models (LLMs) are widely used to tackle complex tasks with autonomous workflows. Recently, reusable natural language skills have emerged as a popular paradigm to inject procedural knowledge into LLM applications. Since popular skills are often invoked repeatedly, placing their full text in every context significantly increases prefill cost and latency. While text compression techniques have the potential to solve this problem, most existing methods are designed to compress factual knowledge in documents instead of procedural knowledge, making them insufficient for skill compression. In this paper, we argue that an effective skill compression method should: 1) preserve logical dependencies among workflows and tool protocols, 2) enable lightweight, offline compression for frequently updated community skills, and 3) be adaptable to varying complexities across skills. To address this, we present SKIM (SKIll coMpression), an adaptive multi-resolution soft token compression framework for procedural skills. Depending on the complexity of each skill, SKIM creates different numbers of soft tokens that not only improve the efficiency of LLM inference, but also preserve the effectiveness of skill usage. Experiments indicate that SKIM compresses skills to 30 to 60 percent of their original token length while preserving task performance better than existing compression methods.We have released our code at https://github.com/bebr2/SKIM .